怎么判断爬虫已经将网站的数据完整的爬取下来了

2018-06-20 11:41:28 +08:00

diffworld

scrapy 新手，想到一个问题，比如京东有很多商品，不能确定它们的总数，所以即使爬回来很多数据，怎么判断是否已经把所有的商品都爬取到了

如果不能判断，应该采取什么方法尽可能多的爬数据

crawlspider 可以做整站爬取，但是是不是真的能够取尽所有的 url ？

跪求大神解答

3353 次点击

所在节点

5 条回复

nine99

2018-06-20 12:09:23 +08:00

没有通用的方法，得看你爬的思路

tozp

2018-06-20 15:27:06 +08:00

只要思路是正确的，爬虫 finish 的时候就爬完了。

rootx

2018-06-20 15:39:02 +08:00

自己想

shangfabao

2018-06-20 17:49:56 +08:00

自己判断

icy37785

2018-06-21 13:48:42 +08:00

木有通用方法

第 1 页／共 1 页

这是一个专为移动设备优化的页面（即为了让你能够在 Google 搜索结果里秒开这个页面），如果你希望参与 V2EX 社区的讨论，你可以继续到 V2EX 上打开本讨论主题的完整版本。

V2EX 是创意工作者们的社区，是一个分享自己正在做的有趣事物、交流想法，可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.