搜索引擎的召回问题

2018-01-06 16:56:42 +08:00
 owenliang

如果我用 ES 做搜索,查询可以召回千万级的文档,难道 ES 要给所有文档打分后再返回给我 topN?

求做这行的同学指点。

4271 次点击
所在节点    Elasticsearch
3 条回复
WinMain
2018-01-06 21:31:52 +08:00
那就根据不同算法召回最有可能的一部分呗,不知道我说的对不对。
Morriaty
2018-01-07 00:34:21 +08:00
ES 检索的过程相当于一个 map reduce 的过程,在各个 shard 里分别检索,最后再有 coordinator 整合。所以大数据量的计算是被分配到集群的各个 shard 上去了。

而且如果真的一个 query 召回了太多的 doc,那基本可以认为该 query 是个 stopword。
owenliang
2018-01-07 10:01:47 +08:00
@Morriaty 这么说单个 shard 的数据量是单机计算的一个上限量。

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/420620

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX