发现处理十万条以上数据的时候 sed、awk 命令就 bug 了

V2EX = way to explore

V2EX 是一个关于分享和探索的地方

For Existing Member Sign In

Distributions

› Ubuntu

› Fedora

› CentOS

中文资源站

› 网易开源镜像站

This topic created in 3335 days ago, the information mentioned may be changed or developed.

十万条以上就开始只能处理一部分而已

sed

处理

bug

命令

16 replies • 2017-03-14 09:31:35 +08:00

mdzz

Mar 13, 2017

看到 grep - md5.sum 的时候楞了几秒钟

Martin9

Mar 13, 2017

@mdzz 我也

ElmerZhang

Mar 13, 2017

你确定不是你的 md5.sum 一直有 append ？

yiyiwa

Mar 13, 2017

10 万条不至于吧!

congeec

Mar 13, 2017 via iPhone

这种情况下不用 cut 么？

rrfeng

Mar 13, 2017

从未遇到过

noark9

Mar 13, 2017

从未遇到过，你确定你的数据只是按行还是有增加，或者数据没问题，之前导数据的时候三五百万是松松的处理啊

lrz0lrz

Mar 13, 2017

处理几千万行数据从没遇到过这个问题

est

Mar 13, 2017

在 hdfs /hadoop stream 上跑 grep 的路过。都不是事儿～～

airqj

Mar 13, 2017

@mdzz
@Martin9
以为这是 grep 某种自己未知用法 :(

rogerchen

Mar 13, 2017

楼主总想搞个大新闻， FSF 这些远古套件出问题的可能性几乎没有，你也不想想用户群有多大。。。

lhbc

Mar 13, 2017 via iPhone

十万也算量？

fxxkgw

Mar 13, 2017

C 的效率对付几十万条数据还是妥妥的

chineselittleboy

Mar 13, 2017

下午刚处理过三百万行的文本，几十秒

halfbloodrock

Mar 14, 2017

想用 shell 处理大量文本数据的话，用 while 结合 awk ， sed 。

feiyang21687

Mar 14, 2017

md5.sum......