有没有什么工具能根据我的兴趣,自动刷知乎、V2EX 等网站并筛选感兴趣的帖子?

143 天前
 ycy9808
现在发现获取碎片化的信息太费时间,和我玩游戏的时间有点冲突。

虽然这些网站提供了 RSS 功能或者栏目订阅,但我发现一个问题:

即便已经订阅了某个话题或板块,里面推送的内容也有很大一部分并不是我真正关心的。而且推送的内容质量参差不齐。

所以我在想,有没有现成的工具或者框架,能够实现这些功能:

1 、定时访问指定网站;

2 、按关键词、标签、标题内容等进行初步筛选;

3 、最好能用 AI 来判断这篇帖子我可能是否感兴趣;

4 、最后把这些内容以每日或者汇总的形式,推送到邮箱。

有没有大佬已经搭建过类似的东西,能省去每天翻几十篇没兴趣内容的时间,不知道大家有没有这样的需求。
4103 次点击
所在节点    程序员
28 条回复
yb2313
143 天前
我也在想自己整一个项目来搞这个, 用 py 做爬虫, 然后前端展示, 后端可能用 rust 或者 c#,go, 筛选条件还是用 py 写比较方便, 猜测有很多包比较方便
shendaowu
143 天前
Mem0 也许能实现这个功能?“自适应个性化:根据用户交互不断改进,提供精准个性化记忆。” “Mem0 可以显著提升个性化 AI 的能力。通过记住用户的偏好等用户画像信息,AI 产品就可以提供更加个性化服务,有较好的想象空间。”https://www.cnblogs.com/xiaoqi/p/18315502/mem0

另外 OP 刷这些东西的主要目的是什么?我属于手里拿着“XY 问题”,看谁都在犯这个毛病。比如如果 OP 是想扩展知识面的话,也许看“牛津通识读本”或者各学科的导论效果会更好一些。如果是想紧跟时事的话,订阅一些相关的正经媒体也许更好。
DIO
143 天前
建议直接基于 RSS 的搞,爬虫项目一般是弃坑跑路最快的
lekai63
143 天前
你这需求 不是又回到算法推荐了吗

无非是本来平台出算法 现在你想自建
renmu
143 天前
不看立省
shendaowu
143 天前
@lekai63 #4 平台跟用户一般有利益冲突。平台想要用户不停地刷刷刷。用户想要自己真正感兴趣的,并且不想一直刷刷刷。
IndexOutOfBounds
143 天前
楼主看下我这个是否满足你的需求,基于 RSS 的
https://www.v2ex.com/t/1119444

不过现在还没出来,拖了比较久,现在在写 README &测试阶段
musi
143 天前
@DIO #3 国内很多平台本并不提供 RSS 订阅,所以大多数平台的 RSS 也就是个爬虫
2333wz
143 天前
我每次大会员断供 B 站就给我推送想看的会员限定
yb2313
143 天前
主要是自己看的平台就那么几个, 直接操作浏览器不停往数据库存就行了, 速度也不用很快, 自己看不完, 然后自己根据任意条件筛选掉不喜欢的, 对接 ai 也很方便
bantianys
143 天前
https://newsnow.busiyi.world/c/hottest
这个是开源的项目,自己改下,用 LLM 的 API 过滤。具体代码怎么改可以用 cursor 根据整个 CodeBase 辅助你修改。
SmiteChow
143 天前
自建的信息茧房它就不是茧房了吗?
mumbler
143 天前
不就是今日头条么
opengps
143 天前
你是想玩游戏,但惦记着刷资讯。“看山不是山,看水不是水”
Gilfoyle26
143 天前
这不就是 抖音吗,反正都是打发时间,刷抖音和刷知乎、V2EX 等网站又有什么区别呢
Pipecraft
143 天前
Feedly 的 AI feed 功能也许是你想要的。
Librola
143 天前
@SmiteChow 茧房总比茅厕好,有些平台的推荐简直是在压着你喂💩
z1829909
143 天前
拒绝平台给你推送的流信息,自己主动去找一些想知道的信息。
chqome
143 天前
feedbro 可以根据关键词过滤掉不行看的内容
hxy100
143 天前
何必自己造轮子,建议你多花点时间刷刷今日头条就行了。字节的算法向来很先进,会给你想要的。

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/1124904

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX