几百本小说,要能支持正则表达式。
grep 搜索大量文本非常慢。我在想如果分词然后建立索引,速度应该非常快。请问有现成的轮子吗?
grep 搜索大量文本非常慢。我在想如果分词然后建立索引,速度应该非常快。请问有现成的轮子吗?
1
morefreeze Dec 14, 2015
500M 用 grep 能慢到哪? 1 分钟出不来么?我没试过 就是问问
不行换 ack 试试 效率说是比 grep 快很多 |
2
lightening Dec 14, 2015
@morefreeze 不不, ack 快是建立在它会自动忽略不需要搜索的文件(比如 binary 和 .git/ 下的文件)的基础上的, ack 本身是 Python 写的,不可能比 grep 快。
|
3
Zzzzzzzzz Dec 14, 2015 这点量 buffer 预热好后很快的
yang@laptap ~/Downloads/2000W $ egrep 张\S*民 * | wc -l 835 yang@laptap ~/Downloads/2000W $ time egrep 张\S*民 * > /dev/null real 0m4.483s user 0m3.893s sys 0m0.579s yang@laptap ~/Downloads/2000W $ time egrep 李\S*民 * > /dev/null real 0m4.419s user 0m3.779s sys 0m0.626s yang@laptap ~/Downloads/2000W $ du -sh 3.0G . |
4
rming Dec 14, 2015 sphinx elasticsearch
前者, 0 配置,简单 后者,现代,扩展性好 |
5
Zzzzzzzzz Dec 14, 2015
cache...不是 buffer, 写错.
|
6
pynix Dec 15, 2015
全文检索。。。
|
7
KentY Dec 15, 2015
试试 ag
这家伙真比 grep 快不少 不过话说回来, 500M 文本对 grep 来说不算什么事儿啊. |
8
KentY Dec 15, 2015
或者一下都 load 到内存里, 反正才 500M 随便你怎么折腾.
|
9
MOxFIVE Dec 15, 2015 via iPad FileLocator
|