Python 如何实现对单页面增量爬取呢?

2018-03-27 19:39:32 +08:00
 jakeyfly

比如一个页面 上面就是一个表格 不定时的会增加一行信息 如何对这样的类型进行增量爬取呢,只爬取增加的内容?

1561 次点击
所在节点    问与答
6 条回复
hardman
2018-03-27 19:41:05 +08:00
判断行数固定时间就 OK 不停检测行数
kkzxak47
2018-03-27 20:01:40 +08:00
不可能只爬取增加的内容,你不把网页拿下来,怎么知道有没有变化?
自己做去重
jakeyfly
2018-03-27 20:08:19 +08:00
@kkzxak47 是下读取数据后对比,那是否只能一条条的跟数据库的对比 没有的才写入这样?
locoz
2018-03-27 23:51:13 +08:00
每一行有没有 id 之类的标识 有的话可以把 id 存到 redis 增量的时候查 redis 就行了 速度比较快
jakeyfly
2018-03-28 00:05:12 +08:00
@locoz 有个时间 但是 存在 redis 里 除了 list 别的不能选择最后一个入队列的来对比时间啊
ebingtel
2018-03-28 09:22:45 +08:00
根据链接,保存的时候 INSERT IGNORE?

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/441904

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX