推广 Github 项目:爬取免费可用代理,供爬虫等工具使用

2017-09-04 11:58:57 +08:00
 ksaa0096329

proxy_list

很多网站对爬虫都会有 IP 访问频率的限制。如果你的爬虫只用一个 IP 来爬取,那就只能设置爬取间隔,来避免被网站屏蔽。但是这样爬虫的效率会大大下降,这个时候就需要使用代理 IP 来爬取数据。一个 IP 被屏蔽了,换一个 IP 继续爬取。此项目就是提供给你免费代理的。

需要免费代理的可以试试,如果对您有帮助,希望给个 Star ⭐,谢谢!😁😘🎁🎉

Github 项目地址 gavin66 / proxy_list

特性

使用

使用 Python3.6 开发的项目,没有对其他版本 Python 测试

克隆源码

git clone git@github.com:gavin66/proxy_list.git

安装依赖

pip install -r requirements.txt

运行脚本

python run.py

Web API

查看文档

8005 次点击
所在节点    Python
24 条回复
Cooky
2017-09-04 12:55:15 +08:00
手动点赞
Le4fun
2017-09-04 13:35:33 +08:00
好东西,mark
est
2017-09-04 13:39:52 +08:00
很好。我已经把这些 ip 全部加黑名单了。
qiukun
2017-09-04 13:43:41 +08:00
@est 漂亮
oneofwower
2017-09-04 13:53:58 +08:00
@est 此帖终结
lwghappy
2017-09-04 13:55:56 +08:00
有测试过爬虫的效率怎么样?
ksaa0096329
2017-09-04 14:29:07 +08:00
@lwghappy 你指的是哪一方面?是使用这些代理的效率还是爬取这些代理的效率?如果是爬取的话,每个代理都会访问一遍 `https://httpbin.org/` 确定代理可用。也就是使用已持久化下来的,都是保证可用的,使用 Web API 获取的时候都会获取连接速度最快的。
ksaa0096329
2017-09-04 14:42:17 +08:00
@Cooky 😄
ksaa0096329
2017-09-04 14:42:39 +08:00
@Le4fun 😄
ksaa0096329
2017-09-04 14:43:14 +08:00
@est 👍
Itanium
2017-09-04 14:45:00 +08:00
反爬界的福音
former
2017-09-04 16:22:20 +08:00
@Itanium 反爬界是不是也每天爬一遍加 blocklist..
gyh
2017-09-04 19:04:11 +08:00
和 [IPProxyPool]( https://github.com/qiyeboy/IPProxyPool) 比有什么优势么
lj0014
2017-09-04 19:45:31 +08:00
顶,收藏备用
fhefh
2017-09-04 20:23:09 +08:00
顶 收藏备用
Soar360
2017-09-04 21:08:32 +08:00
我也做了一个,话说,这个成本真的不高啊……
https://ip.coderbusy.com/
Orzzzz
2017-09-04 23:13:07 +08:00
搭车: https://github.com/wrfly/gus-proxy

把所有代理当一个来用。
suantong
2017-09-05 08:17:53 +08:00
刚在 tending 看到了
flyingfz
2017-09-05 09:37:39 +08:00
话说 会不会 用的人多了之后, 被扒的网站 很容易就 把所有(或者大部分)的代理池分辨出来, 然后大家都没得玩了。
ksaa0096329
2017-09-05 09:45:08 +08:00
@gyh 我原来用的就是这个项目,后来看了源码感觉很多地方复杂了,我又有代码洁癖。所以有了这个项目,如果看源码,有很多我是借鉴 IPProxyPool 的。

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/387991

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX