无聊初学 Python 爬虫,日常需要,写了个 IP 代理池程序,自动抓取几个代理网站的免费代理 IP,感觉 IP 质量好差,有没有什么好的建议?

2017-12-25 09:32:14 +08:00
 dirls

系统功能:
( 1 )自动爬取互联网上公开的免费代理 IP (目前已支持西刺代理、快代理、IP181 )
( 2 )周期性验证代理 IP 有效性
( 3 )提供 http 接口获取可用 IP

系统逻辑架构:
https://raw.githubusercontent.com/lsdir/proxypool/master/image/architecture.png

GitHub:
https://github.com/lsdir/proxypool

各位大佬:
抓取的 IP 质量好差,有没有什么好的替换方案?
或者程序方面的其他建议都可以交流。

6262 次点击
所在节点    Python
23 条回复
huanter
2017-12-26 13:45:50 +08:00
@dirls
我也初学 PYTHON
我用的你的代码试着添加一个 Plugin
网址如: https://proxy.coderbusy.com/zh-cn/classical/anonymous-type/transparent/p2.aspx
但报错了。
Log 如下:



2017-12-26 13:26:49,535 connectionpool.py[line:805] INFO Starting new HTTPS connection (1): proxy.coderbusy.com
2017-12-26 13:26:49,541 getproxy.py[line:71] ERROR request error, spider plugin: 码农, url: https://proxy.coderbusy.com/zh-cn/classical/anonymous-type/transparent/p9.aspx/, error: maximum recursion depth exceeded



求解答。
谢谢!!!
hjuj91
2017-12-29 21:10:21 +08:00
为啥不用 tor ?
sw10
2018-02-02 19:15:25 +08:00
/t/424630

我们有提供代理 ip 服务。最近有几位 v 友在使用,反馈还不错。

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/417323

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX