爬虫如何实现增量爬取?

2018-07-26 23:59:20 +08:00
 PHPer233
有一个论坛,每天都有新的帖子发表,我想让爬虫每天只爬取新增的帖子,而不是把已经爬过的帖子都爬取一遍。这种需求该如何实现?求思路。。
2523 次点击
所在节点    酷工作
4 条回复
caiem
2018-07-27 00:02:59 +08:00
帖子是自增 id 么.增量时读取 max id 就行了嘛
qsnow6
2018-07-27 00:25:21 +08:00
去爬帖子列表页, 每次都把当前页的 url 和数据库中的对比,如果没有重复的说明,这一夜都是新的 URL,然后下一页,直到出现部分重复或完全重复的页面
thedog
2018-07-27 00:26:03 +08:00
redis?
fiht
2018-07-27 09:52:07 +08:00
实现增量一个最简单的办法是每天抓取一下首页 链接。

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/474514

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX