怎么判断爬虫已经将网站的数据完整的爬取下来了

2018-06-20 11:41:28 +08:00
 diffworld
scrapy 新手,想到一个问题,比如京东有很多商品,不能确定它们的总数,所以即使爬回来很多数据,怎么判断是否已经把所有的商品都爬取到了

如果不能判断,应该采取什么方法尽可能多的爬数据

crawlspider 可以做整站爬取,但是是不是真的能够取尽所有的 url ?

跪求大神解答
2910 次点击
所在节点    问与答
5 条回复
nine99
2018-06-20 12:09:23 +08:00
没有通用的方法,得看你爬的思路
tozp
2018-06-20 15:27:06 +08:00
只要思路是正确的,爬虫 finish 的时候就爬完了。
rootx
2018-06-20 15:39:02 +08:00
自己想
shangfabao
2018-06-20 17:49:56 +08:00
自己判断
icy37785
2018-06-21 13:48:42 +08:00
木有通用方法

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/464353

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX