信息来源通过 RSS 等信息抓取手段
用 chat 模型理解用户的行为画像
用 Embedding 模型对文章进行嵌入和检索
用 ranker 模型对文章在其所在分类质量进行打分
思路是这样,rss 抓来的内容=>用 chat 模型进行分类、标签和总结=> ranker 模型对该文章在其所在分类的内容质量进行评级=> 评级高的进行 Embedding 嵌入
后面根据用户的互动行为用 chat 模型进行建用户画像 根据用户画像通过 U2I 去检索文章混合 TF-IDF 关键字匹配兜底,对内容进行推荐分发
为了方便理解,我让 ai 根据刚才的描述画了一个文字版架构流程图
内容处理
┌──────────────┐
│ RSS / 抓取 │
│ (Feed / Web) │
└──────┬───────┘
│ 原始文章
▼
┌────────────────────┐
│ 内容预处理 Pipeline │
│ - 去噪 / 去重 │
│ - 正文抽取 │
│ - 语言检测 │
└──────┬─────────────┘
│ 清洗后文本
▼
┌───────────────────────────────┐
│ Chat Model (内容理解) │
│ - 分类( Category ) │
│ - 标签( Tags ) │
│ - 摘要( Summary ) │
│ - 关键词 / 主题(可选) │
└──────┬────────────────────────┘
│ 结构化内容
▼
┌─────────────────────────────────────┐
│ Ranker Model (分类内质量评估) │
│ - 输入:文章 + 分类 + 标签 │
│ - 输出:质量分数 / 等级( A/B/C/D ) │
└──────┬──────────────────────────────┘
│
├───────────────┐
│ 高质量内容 │ 低质量内容
│ (>= 阈值) │ (< 阈值)
▼ ▼
┌──────────────────┐ ┌────────────────────┐
│ Embedding Pipeline│ │ 冷存 / 低频曝光 │
│ - 向量化 │ │ - 搜索兜底 │
│ - 向量索引 │ │ - 长尾内容池 │
└─────────┬────────┘ └────────────────────┘
│
▼
┌──────────────────────┐
│ 向量库 / 检索索引 │
│ (ANN / pgvector 等) │
└──────────────────────┘
用户侧画像与推荐流程
┌──────────────┐
│ 用户行为采集 │
│ - 点击 │
│ - 阅读时长 │
│ - 收藏 / 分享│
│ - 跳过 │
└──────┬───────┘
│ 行为序列
▼
┌──────────────────────────────┐
│ Chat Model (用户画像理解) │
│ - 兴趣主题 │
│ - 偏好分类 │
│ - 阅读深度 / 新鲜度偏好 │
│ - 显式 + 隐式偏好 │
└──────┬───────────────────────┘
│ 用户画像(结构化)
▼
┌─────────────────────────────────────┐
│ User → Item 召回( Recall ) │
│ │
│ ① 向量召回( U2I Embedding ) │
│ - 用户画像向量 │
│ - 文章向量 │
│ │
│ ② 关键词召回(兜底) │
│ - TF-IDF / BM25 │
│ - 用户兴趣关键词 │
└──────┬──────────────────────────────┘
│ 候选文章集合
▼
┌──────────────────────────────┐
│ 排序 / 混排(可扩展) │
│ - 质量分( Ranker ) │
│ - 相似度分 │
│ - 新鲜度 / 多样性 │
└──────┬───────────────────────┘
▼
┌──────────────┐
│ 内容分发展示 │
└──────────────┘
花了两个月的时间改进与验证,结论是本地自建推荐系统已经在技术上具备可行性了
感兴趣的可以自行验证,或在这个https://github.com/weekend-project-space/ifeed 的基础上进行验证
这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。
V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。
V2EX is a community of developers, designers and creative people.