RSS404 - 为任何网站生成 RSS 地址[Demo]

2022-03-12 11:25:42 +08:00
 prasanta

案例地址

https://demo.rss404.com/?url=https%3A%2F%2Fwww.v2ex.com

Demo 只提取前 20 个数据,加了请求锁,会比较慢。

你可以尝试任何正常的列表页面(肉眼可以轻易判断主列表)。

背景

  1. 搞了一个自动识别网页列表的算法,想把它应用起来。有开源的,但是效果不理想。
  2. 自动解析内容页的开源框架已经很多了,后期都可以集成起来。

原理

  1. selenium 加载网页
  2. 机器学习视觉分类+NLP 分析解析列表页面的列表项,并提取出列表页的每一项

讨论目的

  1. 这个项目还有哪些想象力?出了 RSS 之外?
  2. 是否有市场?
  3. 你作为用户想要什么?

16276 次点击
所在节点    分享创造
36 条回复
saimax
2022-03-15 11:20:04 +08:00
这个太 6 了~ 很多动态页面 feed43 无法制作的 可以用这个了~ 不知道会不会长期稳定提供服务啊?

然后 还有一些页面,无法解析好像
比如:
http://cpa.sf.gov.cn/gztz1/qtgz.htm
prasanta
2022-03-15 14:55:30 +08:00
@saimax 这个网站监测了 headless 浏览器导致的,这是可以解决的。

是有长期提供服务的打算,不过目前只在 V2EX 和 hackernews 发了两个帖子,想先看看反响。因为 rss 的用户群体还是太小。目前纯 demo 阶段会慢慢修复很多问题。

后面我会把格局改大一点,“自动转 rss” 改为 “自动抽取结构化数据”
prasanta
2022-03-15 15:12:11 +08:00
@saimax 修复了
Bravoios
2022-03-16 09:46:00 +08:00
很棒,支持一下,很需要这样的解析项目
prasanta
2022-03-16 13:08:47 +08:00
@Bravoios 谢谢!希望能收到大家的建议和意见
tmkook
2022-03-17 17:15:18 +08:00
https://github.com/tmkook/easyhtml
用 PHP 写过类似的
prasanta
2022-03-18 13:22:13 +08:00
@tmkook 谢谢分享,刚刚简单浏览了一下源码,部分思路很像!
prasanta
2022-03-18 13:26:14 +08:00
哪位大哥在测试黄色网站?别啊
snipersteve
2022-03-20 16:17:58 +08:00
有一些网站存在 url 拼接的问题,可以进一步优化一下。比如 https://demo.rss404.com/feed?url=https%3A%2F%2Fwww.samr.gov.cn%2Ffldj%2Fajgs%2F
prasanta
2022-03-20 18:26:12 +08:00
@snipersteve 多谢反馈,已修复
snipersteve
2022-03-20 19:45:00 +08:00
@prasanta 神速
prasanta
2022-03-20 21:40:06 +08:00
@snipersteve 刚好看到了。。。
snipersteve
2022-03-20 22:46:13 +08:00
@prasanta 有可能给个自己部署的方案吗?
saimax
2022-03-22 16:45:34 +08:00
@snipersteve
同问
WangGuanJingJi
2022-04-06 12:03:41 +08:00
页面打不开了
prasanta
2022-04-06 14:05:25 +08:00

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/839833

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX