分享一个最近写的 http 代理池工具 proxy_pool

2019-12-01 14:37:58 +08:00
 endoffight

proxy_pool

之前用过很多开源出来的工具,效果都不是很理想,于是就自己开发了这个工具。他功能很简单,抓代理并且提供 api 给爬虫或者其他需要 http 代理的软件用。

支持功能

说明

下载地址

如果用的顺手,欢迎 star 一下~

proxy_pool/releases

4426 次点击
所在节点    分享创造
5 条回复
mythjava
2019-12-02 16:10:03 +08:00
好东西
xjoker
2019-12-03 09:52:32 +08:00
好像没看见配置检测网址的功能
endoffight
2019-12-03 11:52:57 +08:00
@xjoker 目前用的是 ip.cip.cc ,这个 url 直接返回客户端 ip,方便比较

是有需求吗?
xjoker
2019-12-03 12:59:26 +08:00
@endoffight #3 刚好最近在做爬虫类的项目
你这个项目真的很不错

有时候会遇到反爬或者 ip 被封禁,所以我这里都是使用一个自定义的地址来检测代理的可用性
endoffight
2019-12-03 14:51:50 +08:00
@xjoker

这个问题其实之前考虑过,因为池子可能不是给某一个爬虫使用,所以当时考虑到创建多个池子,然后针对每一个池配置一个检测代理是否可用的规则,所以我在开发的时候预留了 master 和 worker 模式,master 负责爬,每个 work 会维护自己的池子,m 会把采集到的代理分发到所有 w 中。

但是检测一个代理 IP 是否可用,仅仅靠 http code==200 应该是不够的,遇到 API 类型的 url,可能要解析一下,然后判断某个字段是否正确;或者 html 中出现了某个关键字;还可能有更复杂的判断模式,当时想很多东西,撸代码的时候觉得还是先把基本功能实现了再说。

综上,目前这个项目还是属于初级阶段,代理池时作为一个中立的池子。而你说的这个 feature 等有了 M/W 模式后就很好实现了。现阶段想满足你的需求修改 proxy 的 TestProxy 方法为你自己的逻辑即可。

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/624790

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX