抓取网站转成 RSS 的问题

2015-05-04 23:06:35 +08:00
 erik0

伪电工写了一个简单的程序将新闻类网站转成RSS,有一点问题:
1.目前是定时抓取,每次都会解析一遍首页和各文章网页,很多都是重复劳动。如何简单有效地判断某文章是否已经抓取过,从而避免重复抓取?
2.生成的RSS需要包含所有的文章吗,还是只要包括最新的几条就行?如果是后者,那么RSS阅读器是否可能漏掉一些老文章。
3.有什么更好的方法能实现即时推送到手机?除了RSS以外。
谢谢!

3233 次点击
所在节点    Python
3 条回复
whatisnew
2015-05-04 23:28:11 +08:00
1. 做一个 ping server
2. 你不可能把所有文章都抓取了
3. 即时推送是另外一个话题。
erik0
2015-05-05 13:21:05 +08:00
@whatisnew 谢谢解答,还有些问题:
1. ping server是什么?能给一些clue吗
2. 我就是想只抓取最新的文章,那么生成的rss也只需包含最新项目吗?
3. 那就暂时不考虑吧
whatisnew
2015-05-05 17:51:26 +08:00
@erik0 PING SERVER 是 rss 有更新时,通知你的 ping 你的服务器,但是一般人都不要 ping 你

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/188463

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX