Python 如何实现对单页面增量爬取呢？

2018-03-27 19:39:32 +08:00

jakeyfly

比如一个页面上面就是一个表格不定时的会增加一行信息如何对这样的类型进行增量爬取呢，只爬取增加的内容？

1772 次点击

所在节点

6 条回复

hardman

2018-03-27 19:41:05 +08:00

判断行数固定时间就 OK 不停检测行数

kkzxak47

2018-03-27 20:01:40 +08:00

不可能只爬取增加的内容，你不把网页拿下来，怎么知道有没有变化？
自己做去重

jakeyfly

2018-03-27 20:08:19 +08:00

@kkzxak47 是下读取数据后对比，那是否只能一条条的跟数据库的对比没有的才写入这样？

locoz

2018-03-27 23:51:13 +08:00

每一行有没有 id 之类的标识有的话可以把 id 存到 redis 增量的时候查 redis 就行了速度比较快

jakeyfly

2018-03-28 00:05:12 +08:00

@locoz 有个时间但是存在 redis 里除了 list 别的不能选择最后一个入队列的来对比时间啊

ebingtel

2018-03-28 09:22:45 +08:00

根据链接，保存的时候 INSERT IGNORE?

第 1 页／共 1 页

这是一个专为移动设备优化的页面（即为了让你能够在 Google 搜索结果里秒开这个页面），如果你希望参与 V2EX 社区的讨论，你可以继续到 V2EX 上打开本讨论主题的完整版本。

V2EX 是创意工作者们的社区，是一个分享自己正在做的有趣事物、交流想法，可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.