scrapy 爬虫小问题 目标站限制速度怎么办?

2017-05-22 08:13:46 +08:00
 xiaoyu9527

scrapy 爬虫小问题 目标站限制速度怎么办?

最高只能跑到 5M 左右。

3408 次点击
所在节点    Python
15 条回复
mazyi
2017-05-22 08:22:25 +08:00
多 IP
xiaoyu9527
2017-05-22 08:39:42 +08:00
@mazyi 他那个代理 IP 的模式就是多 IP 采集么?

是给每个线程配一个 iP 么?
mazyi
2017-05-22 09:19:06 +08:00
@xiaoyu9527 至于多 IP 怎么做就看需要了
BiggerLonger
2017-05-22 09:57:55 +08:00
scrapy 有限制速度選項
justfun
2017-05-22 09:58:57 +08:00
分布式
jiezhi
2017-05-22 10:01:35 +08:00
爬人家东西也不要把人家资源全部占用掉呀
PythoneerDev6
2017-05-22 10:32:38 +08:00
多 IP 分布式。 其次 Scrapy 提供了每个线程的时间控制。
QQ2171775959
2017-05-22 11:02:59 +08:00
你把人家的网站资源占满了的话,人家没有封你就算不错了。
Xrong
2017-05-22 11:48:13 +08:00
人家带宽就那么大,能怎么办?爬慢点。。。
af463419014
2017-05-22 11:55:49 +08:00
你把人家带宽全占了,搞得人家还以为网站被攻击了呢
whileFalse
2017-05-22 11:56:55 +08:00
没准人家出口带宽就只有 5M。
ytmsdy
2017-05-22 11:57:37 +08:00
爬慢一点!爬虫其实是个寄生虫,宿主死了,寄生虫就死了!
yuansmin
2017-05-22 12:54:21 +08:00
IP 代理池。不过还是建议不要太快了,拿人家东西就不要给人造成太大负担,做个有公德的 spider
killerv
2017-05-22 12:55:18 +08:00
做个不让人讨厌的 spider
dd99iii
2017-05-28 18:24:04 +08:00
别人限速大概还是有原因的

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/362861

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX