各位师傅, elasticsearch 如何进行大量数据的去重?

2020-05-22 11:27:59 +08:00
 zhangxu128
现在的数据量是 1.5kw 左右,内容是 20 个以内的汉字,使用的 ik-skart 分词器。
3073 次点击
所在节点    Elasticsearch
8 条回复
bolide2005
2020-05-22 11:33:23 +08:00
可以用 collapse 合并,不过要注意这个时候返回的 total_hit 仍旧是不合并的数目,如果要翻页的话那就配合 aggs/cardinality 来计算合并后的数量。还有 collapse 只能应用在 keyword 和 num 类型的字段上。
zxc12300123
2020-05-22 15:06:15 +08:00
你这是要根据自然语言相似度去重吧
pmispig
2020-05-22 15:29:11 +08:00
看你是一次性的还是周期的长期的
要是一次性的话,感觉可以分页排序查询,在查询逻辑里做判断,然后删除重复的 id 文档
zhangxu128
2020-05-22 15:58:56 +08:00
@zxc12300123 是的 存储的数据类型是 TEXT
zhangxu128
2020-05-22 15:59:04 +08:00
@bolide2005 好 我去研究一下
zxc12300123
2020-05-22 22:39:25 +08:00
@zhangxu128 余弦定理去重后再放进 ES
Nostalgia
2023-01-30 23:05:13 +08:00
@bolide2005 老哥,问下现在( 2023.01 )有更方便的获取 collapse 合并结果数目了么?现在有这个需求,但上面的方法有点儿丑陋呀
bolide2005
2023-01-31 10:01:59 +08:00
@Nostalgia #7 有几年没有关注这块了,不好意思,没有更新的消息能给到你

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/674314

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX