写了个抓代理程序,维护了个代理池

2017-06-20 20:48:30 +08:00
 fate0

抓代理:

项目地址: fate0/getproxy

工作原理很简单,也就是去抓代理网站、过滤可用 ip、存储至文本。更多信息可以看 README.md

代理池:

项目地址: fate0/proxylist

正常情况下,代理池的数据在 2000 - 3000 之间

最后:

欢迎各种 star、issue 以及 pr (。・`ω´・)

4559 次点击
所在节点    Python
15 条回复
ixinshang
2017-06-20 21:06:58 +08:00
支持,需要这种
wwek
2017-06-20 21:18:36 +08:00
支持
mingyun
2017-06-20 23:04:15 +08:00
INFO:getproxy.getproxy:[*] Init
INFO:getproxy.getproxy:[*] Current Ip Address: 36.102.227.142
INFO:getproxy.getproxy:[*] Load input proxies
INFO:getproxy.getproxy:[*] Validate input proxies
INFO:getproxy.getproxy:[*] Load plugins
INFO:getproxy.getproxy:[*] Grab proxies
ERROR:getproxy.plugin.cnproxy:[-] Request page 1 error: ('Connection aborted.',
ConnectionAbortedError(10053, '您的主机中的软件中止了一个已建立的连接。', None,
10053, None))
ERROR:getproxy.plugin.freeproxylist:[-] Request page 0 error: HTTPSConnectionPoo
l(host='free-proxy-list.net', port=443): Max retries exceeded with url: / (Cause
d by ConnectTimeoutError(<urllib3.connection.VerifiedHTTPSConnection object at 0
x03529A30>, 'Connection to free-proxy-list.net timed out. (connect timeout=10)')
)
ERROR:getproxy.plugin.proxylist:[-] Request page 1 error: HTTPConnectionPool(hos
t='proxy-list.org', port=80): Max retries exceeded with url: /english/index.php?
p=1 (Caused by ConnectTimeoutError(<urllib3.connection.HTTPConnection object at
0x03531730>, 'Connection to proxy-list.org timed out. (connect timeout=10)'))
ERROR:getproxy.plugin.txt:[-] Request url http://www.proxylists.net/http_highano
n.txt error: HTTPConnectionPool(host='www.proxylists.net', port=80): Max retries
exceeded with url: /http_highanon.txt (Caused by ConnectTimeoutError(<urllib3.c
onnection.HTTPConnection object at 0x035423F0>, 'Connection to www.proxylists.ne
t timed out. (connect timeout=10)'))
INFO:getproxy.getproxy:[*] Validate web proxies

环境 Python3 win7
wujunze
2017-06-20 23:05:18 +08:00
支持 已经 star
v1024
2017-06-20 23:55:38 +08:00
travis 看了想骂娘
fate0
2017-06-21 06:46:39 +08:00
@mingyun 那几个网站被国内墙了呗,等着看其他网站的结果就好了。
fate0
2017-06-21 06:48:25 +08:00
@v1024 拿 travis 干这事感觉挺好的,免费、方便、不被墙 =。=
ssack9
2017-06-21 07:37:43 +08:00
不错啊
Midnight
2017-06-21 08:42:09 +08:00
已 star
tausi0661
2017-06-21 10:30:47 +08:00
已 star
inmyfree
2017-06-21 11:29:30 +08:00
lz 考虑加这个不 proxydb.net
fate0
2017-06-21 11:51:01 +08:00
@inmyfree 之前也想抓这个网站,但是这个网站更新的速度是小时级的...后期可能会加上去,不过数据肯定不是全抓下来。
openbsd
2017-06-21 14:52:54 +08:00
这个可以有
majiawei
2017-06-21 17:08:07 +08:00
已 star,之前有些小工具需要用到代理,然后屁颠屁颠去各个代理网站手动拷贝了几个顶着用哈哈哈哈
bozong
2017-06-22 09:56:43 +08:00
我擦。牛逼

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/369905

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX