有没有按标签相关性排序的方法或资料?

2012-05-09 20:29:20 +08:00
 zzxworld
比如有三篇文章:A,B,C

A的标签有:apple,iphone,iphone4s
B的标签有:apple,ipod touch
C的标签有:apple,iphone

如果我现在查看A相关的文章时,B和C都有,但C的权重要高于B。

用一个比较愚笨的方法就是取出与包含A标签的所有文章,然后再遍历所有文章的标签与A的标签进行比对并分配一个权重的值, 再按权重值进行排序。

但是当数据达到一定量,比如一万条的时候,这个方法就见鬼了。想询问下有没有更好的方法,或是在DB端查询的时候就可以达到这个目的?
2577 次点击
所在节点    问与答
2 条回复
kafka0102
2012-05-09 21:02:43 +08:00
这个放到全文搜索会比较合适。。。
virushuo
2012-05-09 22:04:58 +08:00
用余弦定理计算夹角,然后排序。这是相关度计算的办法,和搜索引擎计算页面相关是一样道理,只是你的tag等于已经做完了分词。

可以参考吴军06年发表在google黑板报的文章: http://www.googlechinablog.com/2006/07/12.html



http://www.google.com.hk/ggblog/googlechinablog/2006/06/blog-post_3066.html

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/35262

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX