爬 RSS 设置多长的时间间隔比较好?

2019-04-28 14:40:59 +08:00
 pockry

写了个 rss 爬虫练练手,想问问爬 rss 一般设多长的时间间隔比较好?

RSS 官网文档好像建议一个小时一次,不过我比较注重实时性,像 cnbeta 这种一小时更新十几篇的,如果 rss 只输出 10 篇,我都不一定能爬的全。

像某些 rss reader 好像会根据 rss 的更新频率自动设置一个抓取频率,这个需要一定的历史数据量,我也搞不起。

所以一个比较礼貌又比较实用的 rss 抓取频率设置为多少为好? 5 分钟一次会不会被 ban ?

2266 次点击
所在节点    问与答
4 条回复
Ultraman
2019-04-28 15:05:25 +08:00
反正是练手,抓取到的内容并不重要,换个更新没那么频繁的网站抓去
jifengg
2019-04-28 15:18:05 +08:00
rss 协议里面有个下次获取时间(之类的),不过我看了一些 rss 服务,有的没有这个值,有的这个值比较大。
我自己是 500 秒获取一次,目前没有出现被 ban 的
airyland
2019-04-28 16:02:26 +08:00
rss 会返回 ttl 定义,http://www.w3school.com.cn/rss/rss_tag_ttl.asp 。如果不定义,5 分钟是一个还可接受的频率。
agagega
2019-04-28 18:02:38 +08:00
RSS 里一个 xml 的条目最大数量有规范么?

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/559475

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX