爬虫绕不开代理,免费的可用率低,付费的过期时间往往又不确定。如何校验也是问题。造了个轮子,欢迎拍砖~

2019-12-16 00:41:28 +08:00
 xtpitt

proxy_tower

代理负载均衡模块,更高效率的使用代理池

注:proxy_tower 本身不抓取、嗅探代理

特性

多倍转发可有效解决免费 /不稳定代理使用率低的问题

地址: https://github.com/worldwonderer/proxy_tower

4754 次点击
所在节点    Python
11 条回复
locoz
2019-12-16 01:07:04 +08:00
看了一下,大概猜到你是弄这东西是为了干啥了…不建议用这么简单粗暴的方式硬怼,量大的话很容易把 IP 池给污染掉,用一段时间后会发现成功概率越来越低。

“付费代理过期时间不确定”这个有点迷,如果说是要保持使用同一个 IP 的话,跟同时转发给多个代理这个操作又是有冲突的。而且现在做得比较大的那几家代理 IP 商貌似都没有过期时间不确定这个情况?
locoz
2019-12-16 01:09:13 +08:00
🤣然后现在国内有专门的爬虫社区了,我们夜幕团队弄的,楼主你可以去那边也发一下 hhhh,地址是: https://bbs.nightteam.cn
xtpitt
2019-12-16 01:16:29 +08:00
@locoz 看过大佬的社区,明天去转发一下
1. 多倍转发特性主要是针对免费代理的,目的是快速过滤掉一些广告代理和低质代理,方式确实有点类似的多倍发包,哈哈哈。 付费代理的话,我之前用过的某麻代理等,都说明 15 分钟有效,但测试下来,过期时间确实不稳定。
2. 主要想推广 response 校验的特性,在别的代理项目中,暂时还没发现实现这个功能的~
locoz
2019-12-16 01:36:42 +08:00
@xtpitt #3 这样啊。我明天帮你喷一喷某麻的人

response 校验的话就是我前面说的,方便是方便但是容易把 IP 池污染掉。毕竟现在很多反爬虽然识别 IP 但并不是以 IP 作为核心判断点的(因为商业级代理 IP 全是拨号 IP...容易误伤),如果出现被反爬的情况很大概率是因为别的问题,而这种情况下如果还继续暴力请求的话就很容易被直接封 IP 了。

这种偏无感知的 response 校验操作挺好的,适合往一些框架里集成(指对反爬系统返回的东西进行通用化的校验)。
392039757
2019-12-16 08:15:27 +08:00
@xtpitt 免费代理现在都玩不进了,免费代理的网站总是失效,我们直接撸收费代理扔到代理池,设定失效时间
xtpitt
2019-12-16 10:03:07 +08:00
@392039757 中小型项目还是可以玩玩的,毕竟还有很多公司不舍得买代理。开着校验和多倍转发,我在个人项目用着成功率很高。
lc7029
2019-12-16 11:27:13 +08:00
扫描 IP,能用就加到代理列表里
以前闲的蛋疼把 0.0.0.0-255.255.255.255 全扫了,顶多 43 亿地址
xtpitt
2019-12-16 13:05:00 +08:00
@lc7029 算上端口,数量还是挺多的。虽然代理的端口一般都用那几个。
xtpitt
2019-12-16 13:41:22 +08:00
@locoz 刚刚附言中回答了下你所说的问题,是有做策略的
locoz
2019-12-16 15:22:45 +08:00
@lc7029 #7 效率太低了,还有一种更高效的办法:直接用 zoomeye 之类的网络空间搜索引擎搜代理服务器相关关键词。
lc7029
2019-12-16 22:35:41 +08:00
@locoz 效率低归低,越简单的方法越有效不是?

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/629313

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX