无聊初学 Python 爬虫,日常需要,写了个 IP 代理池程序,自动抓取几个代理网站的免费代理 IP,感觉 IP 质量好差,有没有什么好的建议?

2017-12-25 09:32:14 +08:00
 dirls

系统功能:
( 1 )自动爬取互联网上公开的免费代理 IP (目前已支持西刺代理、快代理、IP181 )
( 2 )周期性验证代理 IP 有效性
( 3 )提供 http 接口获取可用 IP

系统逻辑架构:
https://raw.githubusercontent.com/lsdir/proxypool/master/image/architecture.png

GitHub:
https://github.com/lsdir/proxypool

各位大佬:
抓取的 IP 质量好差,有没有什么好的替换方案?
或者程序方面的其他建议都可以交流。

6248 次点击
所在节点    Python
23 条回复
rootsir
2017-12-25 09:53:33 +08:00
花钱买
shmon
2017-12-25 09:58:31 +08:00
tq08iue
2017-12-25 10:33:47 +08:00
免费的通常都没什么质量,像那些大量用这种代理刷人气之类的都是买的,一个 IP 可能几块钱甚至更低。
mmz0707
2017-12-25 10:47:38 +08:00
买高匿的要靠谱些吧
yangzhezjgs
2017-12-25 11:22:16 +08:00
买,你可以去阿布云之类的,一块钱买一个小时先试一下
vtwoextb
2017-12-25 11:26:13 +08:00
ioven
2017-12-25 11:38:37 +08:00
对验证完成的 IP 根据端口、所在地进行分类,然后配置扫描
zbl430
2017-12-25 11:44:38 +08:00
鲲鹏代理
cdwyd
2017-12-25 11:48:15 +08:00
就算是收费的很多也是垃圾 拨号 vps 最好用
hotea
2017-12-25 14:13:19 +08:00
@vtwoextb 重启路由器? 23333
Zzde
2017-12-25 14:16:22 +08:00
质量差中调最好的来用
vtwoextb
2017-12-25 14:35:08 +08:00
@hotea yes 程序自动判断 自动重启
dongxiaozhuo
2017-12-25 14:54:21 +08:00
jeterli
2017-12-25 19:17:51 +08:00
@vtwoextb 代理用多了居然忘了有这种操作,应该是重新拨号比较有效率,重启路由太慢了
jeterli
2017-12-25 19:24:52 +08:00
VerifyProxy 可以做成针对目标检测,代理对于不同站点的可用性可能还不一样(比如已经被 Ban ),尤其这种开放的。
vtwoextb
2017-12-25 20:26:20 +08:00
@jeterli 可以重新拨号
lhx2008
2017-12-25 20:45:18 +08:00
买吧,很多收费的自己的服务器揽了家庭宽带的 ip,不是扫的
Soar360
2017-12-25 22:26:02 +08:00
又得秀一波我写的了。最近爬虫用的很 high ~
https://proxy.coderbusy.com/
mztql
2017-12-26 04:11:03 +08:00
首先有免费的 api,但是免费代理的时效性和连通率都差太多了,最优的是拨号 vps
dirls
2017-12-26 09:57:31 +08:00
感谢各位 V 友回复<br>
总结起来 2 种替代方案:<br>
1、花钱买<br>
2、自己拉网线自动拨号重启切换 IP<br>
无奈以后爬虫要部署在阿里云之类的云主机的,拨号方案不可取。花钱买代理,系统太依赖别人,IP 质量也参差不齐,嘤嘤嘤。

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/417323

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX