scrapy 代理 ip 失效后更换 IP

2019-05-27 17:15:11 +08:00
 Fizzyi
求助各位 v 友,我使用 scrapy 框架爬取数据使用了代理 ip,想问下如何在当前 ip 失效或者被封了之后自动更换 ip 呢
2636 次点击
所在节点    Python
3 条回复
tikazyq
2019-05-27 17:29:56 +08:00
需要记录代理 ip 的有效性,如果是使用了 API,先缓存到数据库中。

顺便打个广告,Crawlab 是一个专注于爬虫的集成了爬虫管理、任务调度、任务监控、数据分析等模块的分布式爬虫管理平台,非常适合对爬虫管理、爬虫工程化有要求的开发者及企业

https: //github.com/tikazyq/crawlab
lucays
2019-05-28 19:51:53 +08:00
有中间件的,在 middleware 里写,至少按照 response.status 判断是不是 200
popbayun
2019-06-05 15:58:33 +08:00
建个代理 IP 池,失效或被 ban 就从池子里剔除掉

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/568100

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX