推荐系统:对于基于内容的推荐算法,应该建立全局模型还是个人模型?

2016-03-27 12:51:23 +08:00
 alexapollo

和 News feed 相似,假如需要实现一个类似的系统,那应该建立全局模型还是个人模型?

指的是假设有用户集 X ,用户日志集 Y ,文章集 I ,是应该针对 Y 直接做建模,还是应该针对 X 拆出 Y 中的每个用户,对每个用户建模?

全局模型比较多用在广告上,因为用户的行为很少,很难体现用户个人的兴趣; 个人模型看起来很适合这个场景,但是数据是非常稀疏的,也非常难体现全局特征,人口统计学(年龄性别)也很难体现进来。

2656 次点击
所在节点    问与答
9 条回复
alexapollo
2016-03-27 13:00:26 +08:00
很明显,搜狐使用的是全局模型:
http://www.csdn.net/article/2015-07-31/2825353
风评:效果可能不是很好
pimin
2016-03-27 13:08:35 +08:00
比较建议个人模型
更符合个性化需求
类似 UC 浏览器,乐视视频那样引导用户选择大类或者特征比较明显的内容进行初始化
之后再不断根据行为特征进行判断。
对用户感兴趣的内容不断加权。
alexapollo
2016-03-27 13:28:01 +08:00
@pimin 但是很明显,个人模型会出现泛化问题,在用户阅读数很少时、尤其是大多数用户选择的兴趣可能都很少时,个人模型是不顶用的 —— 它无法根据你的人口属性去做推荐。

而且这种特征并非个人模型不可。
换个方向讲, UC 、乐视这样的引导性内容是很合适放到全局模型里的,比如这样的 feature :
* NBA :关注,姚明:关注, XMAN :关注
这和个人模型没有关系,而且好使(统计意义上)。
mfinal
2016-03-27 13:51:23 +08:00
@alexapollo 既然你都考虑到了。那为什么不一起用呢?
设置一个阈值,使得针对个人推荐的情况下最坏也就是全局推荐的结果。
新闻上还是个性比较有空间,毕竟反馈很多。
road2stat
2016-03-27 13:55:02 +08:00
Global + Local:

The Learning Behind Gmail Priority Inbox
https://research.google.com/pubs/archive/36955.pdf
pimin
2016-03-27 14:05:13 +08:00
@alexapollo
资讯类我考虑了下,确实基于内容的模型可能更好些
因为基于用户行为的推送可能都是旧闻
这和影视 /读书区别比较大
命题其实就是
协同过滤和基于内容推荐系统的对比分析
这方面可以找到的讨论和算法都蛮多的
具体自己搜索一下
alexapollo
2016-03-27 14:05:41 +08:00
@mfinal 一起用是可以的(也是我想做的),但算法上个人模型我觉得还是不够优雅:
把个人的 ID 归入全局模型,然后针对特征做交叉,或者用 FM 等天然交叉的算法,就可以既包含全局特征,又有个人特征。
这样的模型看起来就比较优雅,但计算量很大,而且 feature 很容易爆炸
alexapollo
2016-03-27 14:06:50 +08:00
@pimin 用基于内容+协同过滤做多层模型,是现在比较标准的做法
alexapollo
2016-03-27 14:09:14 +08:00
@road2stat 非常赞,多谢!

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/266620

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX