做爬虫,大批量已搜索 url 链接,如何保存和查询

2016-03-29 20:43:22 +08:00
 xiyangyang

几年前,流行 bloomfilter ,现在有什么新的技术吗?

2459 次点击
所在节点    程序员
5 条回复
firstway
2016-03-29 21:05:55 +08:00
Hbase,呵呵
SlipStupig
2016-03-29 21:21:06 +08:00
bloomfilter 只是个算法.......
murmur
2016-03-30 07:53:33 +08:00
我其实是好奇关键字可以用倒排索引 那么 site:xxx.xxx.com 这个是怎么实现的呢
knightdf
2016-03-30 09:10:16 +08:00
为啥要用新的。。。 bloomfilter 不能满足你?
xiyangyang
2016-03-31 11:20:17 +08:00
考虑要做几亿条 url 连接记录,不知道 bloomfilter 合适不?

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/267194

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX