在用 scrapy 写爬虫的时候,想爬 1 万条,实际只爬了 1000 条,如何解决

2020-03-12 10:00:50 +08:00
 Colorful

想问下,这个问题如何解决啊?

用的是 mongo 数据库

ITEM_PIPELINES 设的是 300

4374 次点击
所在节点    Python
29 条回复
Colorful
2020-03-12 13:58:09 +08:00
@lc7029 假如说 10 万条数据,那不是得运行 100 次?
IGJacklove
2020-03-12 14:28:11 +08:00
爬虫违法吗?。。。现在在爬其他公司得视频信息。。。这个会不会出问题?
xingshu1990
2020-03-12 14:46:30 +08:00
大概率是 IP 封了:建议能保证完全适配抓取的前提下,接入阿布云等 daili。
no1xsyzy
2020-03-12 15:30:26 +08:00
因为楼主描述太不清楚,导致我的老二被卡在电风扇里了
somewhereinmars
2020-03-12 17:14:35 +08:00
用 puppyteer 吧,属于前端模拟爬虫,更加容易突破,支持 js、python 各种扩展
WoStaring
2020-03-12 17:16:28 +08:00
再爬 9000 条
chanywn1
2020-03-12 17:17:41 +08:00
很简单,再爬 9 万条就可以了
Elio
2020-03-13 10:01:02 +08:00
这问题不问问你自己可惜了
Skyline57
2020-05-19 17:40:55 +08:00
@IGJacklove 绕过对方网站反爬手段就算违法,这得看对方发没发现,追不追究。当时用 selenium 那些模仿人浏览网站的行为好像不违法

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/652074

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX