求微信聊天记录搜索算法的思路

2018-12-05 11:47:07 +08:00
 xmflswood

今天发现微信的聊天记录搜索算法有点特殊:

例如聊天记录中有 evan69780 这句话

1.搜索 evan 匹配

2.搜索 evan697 匹配

3.搜索 van 不匹配

4.搜索 697 匹配

5.搜索 97 不匹配

请问这是一种什么思路呢?(想必是通过牺牲一定的准确性来提升搜索效率)

2934 次点击
所在节点    程序员
12 条回复
wdv2ly
2018-12-05 12:16:08 +08:00
就是个 bug 而已
boileryao
2018-12-05 12:16:10 +08:00
应该是分词+前缀适配
reself
2018-12-05 12:18:56 +08:00
顶楼上,我也觉得很可能是分词+前缀
ballshapesdsd
2018-12-05 12:22:35 +08:00
van you see?
mumbler
2018-12-05 12:27:18 +08:00
97 之于 evan69780 可能权重太低而被过滤了,不如 97 年,1997
337136897
2018-12-05 13:12:59 +08:00
楼主大佬请问下微信的聊天记录的数据库如何打开。。。
graysheeep
2018-12-05 13:21:30 +08:00
@337136897 你能打开张小龙直接 500W 请你过去
tyx1703
2018-12-05 13:23:20 +08:00
@graysheeep 现在的不知道能不能打开。至少今年 1,2 月份的时候可以。Android
azh7138m
2018-12-05 13:26:55 +08:00
我猜类似 bitap 这种,取决于 score 怎么给和 token 怎么做

https://en.wikipedia.org/wiki/Bitap_algorithm
janus77
2018-12-05 13:59:33 +08:00
xmflswood
2018-12-05 14:13:46 +08:00
@janus77 感谢!
falsemask
2018-12-05 20:09:24 +08:00
刚测了一下,对方手机是 iphone,我的是安卓,我搜 van 搜不到,她能搜到

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/514501

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX