在用 scrapy 写爬虫的时候，想爬 1 万条，实际只爬了 1000 条，如何解决

2020-03-12 10:00:50 +08:00

Colorful

想问下，这个问题如何解决啊？

用的是 mongo 数据库

ITEM_PIPELINES 设的是 300

5213 次点击

所在节点

29 条回复

Colorful

2020-03-12 13:58:09 +08:00

@lc7029 假如说 10 万条数据，那不是得运行 100 次？

IGJacklove

2020-03-12 14:28:11 +08:00

爬虫违法吗？。。。现在在爬其他公司得视频信息。。。这个会不会出问题？

xingshu1990

2020-03-12 14:46:30 +08:00

大概率是 IP 封了：建议能保证完全适配抓取的前提下，接入阿布云等 daili。

no1xsyzy

2020-03-12 15:30:26 +08:00

因为楼主描述太不清楚，导致我的老二被卡在电风扇里了

somewhereinmars

2020-03-12 17:14:35 +08:00

用 puppyteer 吧，属于前端模拟爬虫，更加容易突破，支持 js、python 各种扩展

WoStaring

2020-03-12 17:16:28 +08:00

再爬 9000 条

chanywn1

2020-03-12 17:17:41 +08:00

很简单，再爬 9 万条就可以了

Elio

2020-03-13 10:01:02 +08:00

这问题不问问你自己可惜了

Skyline57

2020-05-19 17:40:55 +08:00

@IGJacklove 绕过对方网站反爬手段就算违法，这得看对方发没发现，追不追究。当时用 selenium 那些模仿人浏览网站的行为好像不违法

第 2 页／共 2 页

这是一个专为移动设备优化的页面（即为了让你能够在 Google 搜索结果里秒开这个页面），如果你希望参与 V2EX 社区的讨论，你可以继续到 V2EX 上打开本讨论主题的完整版本。

V2EX 是创意工作者们的社区，是一个分享自己正在做的有趣事物、交流想法，可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.