怎么维护 爬虫代理池谢谢

2016 年 1 月 20 日
 Neagle

各位前辈好,个人花了一年业余时间认真学习了 Python 和 Redis ,准备在爬虫这块做深入一点,长久一点,需要维护一个 IP 代理池,目前采取了二种办法:
1 )在淘宝上购买 ip 代理,带 api 的那种,比较方便,但是发现可用性不是很高,在数百万的爬取中花费也上来了。
2 )爬取一些免费代理网站公开的代理 ip 列表,然后用这些列表去访问 baidu.com ,返回码 200 ,则表示可用。发现这些代理的可用性更低,而且很快失效。

想请教下各位前辈怎么维护自己的代理 ip 池,主要有二个问题:
1 、那些提供代理 ip 的网站他们的代理 ip 那里来的,如果是扫(或者爬)的,烦请告知需要些什么知识,我去学习了再来继续,有推荐书籍最好。
2 、怎么更好的验证代理的可用性,比如验证速度,是否高匿等。

非常感谢。

23697 次点击
所在节点    Python
30 条回复
Neagle
2016 年 1 月 24 日
@glasslion 直接搜索代理 IP 。
Neagle
2016 年 1 月 27 日
@binux 请问怎么“测试访问性, 匿名性, 是否插广告” 谢谢。
binux
2016 年 1 月 27 日
@Neagle 用代理访问一个固定的,能显示 header 的页面
feather12315
2016 年 3 月 19 日
@TaMud {'message': 'hello bot'}
......
mapleray
2016 年 3 月 30 日
feather12315
2016 年 3 月 30 日
@mapleray 感谢。当初嫌麻烦,懒得实现,这下有现成的啦~
Nostalgia
2016 年 11 月 18 日
@ghy459 可否多透露点儿呢?谢谢。
Soar360
2018 年 1 月 16 日
sw10
2018 年 2 月 24 日
1. 那些提供代理 ip 的网站他们的代理 ip 那里来的?
部分是扫描来的,部分是自建的,另外一些是比较特殊的渠道。(如:路由器内置)

2. 怎么更好的验证代理的可用性,比如验证速度,是否高匿等。
判断是否高匿用 httpbin.org 就行。

最后广告以下,我自己有维护一个代理池,提供免费和付费两种形式,有部分 V2EX 的朋友在使用。具体参考下面的站内贴:
/t/424630
jakeyfly
2018 年 3 月 15 日
@sw10 大佬 求扫描方法 我闲着没事 想给自己的爬虫整点代理用 不抢生意

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/252139

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX