怎么维护 爬虫代理池谢谢

2016-01-20 16:21:26 +08:00
 Neagle

各位前辈好,个人花了一年业余时间认真学习了 Python 和 Redis ,准备在爬虫这块做深入一点,长久一点,需要维护一个 IP 代理池,目前采取了二种办法:
1 )在淘宝上购买 ip 代理,带 api 的那种,比较方便,但是发现可用性不是很高,在数百万的爬取中花费也上来了。
2 )爬取一些免费代理网站公开的代理 ip 列表,然后用这些列表去访问 baidu.com ,返回码 200 ,则表示可用。发现这些代理的可用性更低,而且很快失效。

想请教下各位前辈怎么维护自己的代理 ip 池,主要有二个问题:
1 、那些提供代理 ip 的网站他们的代理 ip 那里来的,如果是扫(或者爬)的,烦请告知需要些什么知识,我去学习了再来继续,有推荐书籍最好。
2 、怎么更好的验证代理的可用性,比如验证速度,是否高匿等。

非常感谢。

22289 次点击
所在节点    Python
30 条回复
Neagle
2016-01-24 11:56:10 +08:00
@glasslion 直接搜索代理 IP 。
Neagle
2016-01-27 09:58:31 +08:00
@binux 请问怎么“测试访问性, 匿名性, 是否插广告” 谢谢。
binux
2016-01-27 16:58:01 +08:00
@Neagle 用代理访问一个固定的,能显示 header 的页面
feather12315
2016-03-19 10:29:22 +08:00
@TaMud {'message': 'hello bot'}
......
mapleray
2016-03-30 22:20:52 +08:00
feather12315
2016-03-30 23:54:01 +08:00
@mapleray 感谢。当初嫌麻烦,懒得实现,这下有现成的啦~
Nostalgia
2016-11-18 18:07:11 +08:00
@ghy459 可否多透露点儿呢?谢谢。
Soar360
2018-01-16 11:05:50 +08:00
sw10
2018-02-24 20:53:08 +08:00
1. 那些提供代理 ip 的网站他们的代理 ip 那里来的?
部分是扫描来的,部分是自建的,另外一些是比较特殊的渠道。(如:路由器内置)

2. 怎么更好的验证代理的可用性,比如验证速度,是否高匿等。
判断是否高匿用 httpbin.org 就行。

最后广告以下,我自己有维护一个代理池,提供免费和付费两种形式,有部分 V2EX 的朋友在使用。具体参考下面的站内贴:
/t/424630
jakeyfly
2018-03-15 00:33:54 +08:00
@sw10 大佬 求扫描方法 我闲着没事 想给自己的爬虫整点代理用 不抢生意

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/252139

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX