500 多 M 的文本怎么快速搜索相应的内容？

This topic created in 3837 days ago, the information mentioned may be changed or developed.

几百本小说，要能支持正则表达式。

grep 搜索大量文本非常慢。我在想如果分词然后建立索引，速度应该非常快。请问有现成的轮子吗？

Supplement 1 · Dec 14, 2015

合并以后再搜索就快很多

文本

分词

grep

搜索

10 replies • 2015-12-15 09:53:02 +08:00

morefreeze

Dec 14, 2015

500M 用 grep 能慢到哪？ 1 分钟出不来么？我没试过就是问问
不行换 ack 试试效率说是比 grep 快很多

lightening

Dec 14, 2015

@morefreeze 不不， ack 快是建立在它会自动忽略不需要搜索的文件（比如 binary 和 .git/ 下的文件）的基础上的， ack 本身是 Python 写的，不可能比 grep 快。

Zzzzzzzzz

Dec 14, 2015

这点量 buffer 预热好后很快的

yang@laptap ~/Downloads/2000W $ egrep 张\S*民 * | wc -l
835
yang@laptap ~/Downloads/2000W $ time egrep 张\S*民 * > /dev/null

real 0m4.483s
user 0m3.893s
sys 0m0.579s
yang@laptap ~/Downloads/2000W $ time egrep 李\S*民 * > /dev/null

real 0m4.419s
user 0m3.779s
sys 0m0.626s
yang@laptap ~/Downloads/2000W $ du -sh
3.0G .