scrapy:为什么有些 Crawled (200)的没有 Scraped 下来

2019-04-02 22:28:43 +08:00
 dylanhu

最近用 scrapy 框架做爬虫,前几天的数据一直都没问题,这几天爬取的数据明显减少了;应该不是代码的原因,看了下日志,有些 URL 没有抓下来,怎么回事?

2019-04-01 00:00:03 [scrapy.core.engine] DEBUG: Crawled (200) <GET https://www.yellowpages.com/search?search_terms=Tires&geo_location_terms=Dundalk%2C+MD&page=4> (referer: https://www.yellowpages.com/search?search_terms=Tires&geo_location_terms=Dundalk%2C+MD)
2019-04-01 00:00:06 [scrapy.core.engine] DEBUG: Crawled (200) <GET https://www.yellowpages.com/search?search_terms=Tires&geo_location_terms=Dundalk%2C+MD&page=3> (referer: https://www.yellowpages.com/search?search_terms=Tires&geo_location_terms=Dundalk%2C+MD)
2019-04-01 00:00:06 [scrapy.core.scraper] DEBUG: Scraped from <200 https://www.yellowpages.com/search?search_terms=Tires&geo_location_terms=Dundalk%2C+MD&page=3>

如上,page=3 的就 scraped 下来了,而 page=4 的这个只是 crawled 了并没有 scraped,这是为什么,存在好多这样的情况。

7572 次点击
所在节点    Python
2 条回复
dylanhu
2019-04-02 23:00:24 +08:00
重点是前几天没什么这种情况,这两天开始数据少了很多
huyu
2019-04-07 22:50:53 +08:00
@dylanhu 你可以试着打印 response.text 看看什么内容!

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/551439

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX