要开发动态代理 IP 项目,有什么需要注意的么

2017-05-18 13:22:56 +08:00
 qwe321

本身做云主机和拨号 VPS,拥有的 IP 资源很多。发现很多客户买拨号 VPS 之类的过去自建代理 IP 然后做爬虫采集,但是这种客户的时间成本一般都比较高,拨号 VPS 因为各种因素(如运营商宽带大姨妈了)稳定性没办法很好的把控,对于大客户来说维护成本特别高。比如一些互联网巨头的程序猿再去做这些售后维护工作就太大材小用了(出现故障后需要客户先反馈给我们,然后我们进行处理)。市面上也存在着一些商业化代理 IP,但是或多或少都存在着一些弊端,比如 IP 切换的时间不受控制,或者带宽较低稳定性也不高等。我们想自己开发代理 IP 项目,原因一个部分就是因为我们的成本相对较低,另外一个如果我们直接提供给客户动态代理 IP 而不是拨号 VPS 的话,可以节省我们很大的人工量,因为出现问题的节点我们可以自行过滤掉,提供给客户的代理 IP 基本上能保障 99.99%的可用性,另外也可以提高我们产品的利润率。 所以,问题来了,想问问有做爬虫的朋友们,在使用代理 IP 的时候都有什么具体的需求?以便于我们在开发的过程中更加贴近客户的需求。

6228 次点击
所在节点    问与答
56 条回复
gdtv
2017-05-18 13:27:15 +08:00
我正需要很多 ip,希望可以提供 rest 接口,我从接口获取 ip,另外最重要的是价格要便宜
firefox12
2017-05-18 13:28:08 +08:00
网上免费的 proxy 可用率太低 基本没办法翻墙
firefox12
2017-05-18 13:28:36 +08:00
如果你们这个可以翻墙 还是不错
shawngao
2017-05-18 13:32:14 +08:00
关注下,看后文
klxq15
2017-05-18 13:36:26 +08:00
切换耗费的时间尽量小,价格合适
qwe321
2017-05-18 15:55:03 +08:00
@gdtv 需要自己控制 IP 的切换时间么?如果普通的那种扫描来的代理 IP 貌似很便宜
qwe321
2017-05-18 15:55:57 +08:00
@firefox12 这个不可能,与 ZF 政策相违背了,只会做国内的,主要用途就是爬虫采集之类的
qwe321
2017-05-18 15:57:19 +08:00
@klxq15 我看了下目前市面上真正独享的代理 IP 价格大概都在月付 100-200 之间,切换频率貌似限制在 10-20S 之间。
iannil
2017-05-18 16:09:18 +08:00
要做动态 IP 的差异化吗?常年做爬虫类的东西,给你一些建议:
1、指定省市区,越细分越好
2、控制响应时间,根据客户本身的位置与 DNS 等,返回合适的代理,确保每次返回的 IP 代理速度优质,而不是爬虫尝试连了发现网络不行
3、指定运营商,有线的电信、联通、长城、方正,无线的移动 4G,电信 4G,联通 4G
4、指定目标,这个可能有争议,根据客户用 IP 的请求,分析客户的目标域名,那么如果其他客户请求 IP 的时候,一旦发现请求的也是这个域名,提示客户换一次 IP,这个 IP 被其他客户用来抓类似的目标了。

暂时就想到这些...有再补充
gdtv
2017-05-18 16:49:29 +08:00
切换频率是什么意思?
binux
2017-05-18 16:58:59 +08:00
为什么代理 IP 会有切换频率这个东西?我们用的商业代理 IP,拿到都是用好几个月的。
如果你要做切换,那就做个 forward 代理出口呗。
gouchaoer
2017-05-18 17:06:00 +08:00
LZ 有微博之类的联系方式么,v2ex 没私信,有些东西想和你沟通沟通
我自己做了一套类似的东西
qwe321
2017-05-18 18:59:24 +08:00
@gouchaoer 扣扣 597335499 可以么?
Showfom
2017-05-18 19:00:57 +08:00
@binux 因为会被对方服务器屏蔽 IP 呀
qwe321
2017-05-18 19:01:24 +08:00
@binux 那个是固定 IP 的也可以做。但是貌似大多数爬虫采集的需求动态 IP,就是 IP 被目标网站封了后,可以切换其他 IP 继续采集。你们固定 IP 的代理主要是用来做什么业务呢?
qwe321
2017-05-18 19:07:13 +08:00
@iannil 1 和 3 基本上都是一样,目前也是打算这样做的,按地市+运营商划分,然后会再按省份或者中西部和东部这样分组。
第二点估计没有实现的可能性,而且如果都指定机房了,还返回什么合适的代理?
第四点有看到部分网站是让客户主动提交需要采集的网址,感觉这点如果是一个 IP 共享给多个客户用的话比较需要,但是我们本身做的是一个 IP 同时只有一个客户在使用,池子足够大的话是基本上不会出现啥问题的。
qwe321
2017-05-18 19:07:52 +08:00
@gdtv 就比如一分钟换一次 IP,或者以小时换一次 IP
iannil
2017-05-18 19:22:55 +08:00
@qwe321 #16
1 和 3 不一样,比如抓某些 app,尤其是有大数据做用户行为分析的 app,对运营商、省市是有区分的,比如河南 IP 秒封,或者山西电信秒封,山西联通可用。

2 并不是指定机房,比如我的服务器在上海,在没有指定省市的情况下,应返回最快的代理,在指定省市的情况下,应返回该省市内,最快的代理。不能随便分配一个。

4 的话,我们用过很多号称百万 IP 的代理,在限定范围的情况下,我们每天消耗 1-5 万多的 IP,根本不够用,没几天就会重复了。如果你服务 10 个以上和我们一样情况的客户,就会出现我说的这种情况了。我们现在遇到这种情况一般立刻换一家服务商,避免同行撞车。
binux
2017-05-18 19:29:18 +08:00
@Showfom #14
@qwe321 #15
问题是,我们用的商业代理直接给了 3000 个 IP,我们都是轮流用,根本没有「 IP 被目标网站封了后,可以切换」这种需求啊。
Showfom
2017-05-18 20:07:07 +08:00
@binux 我们直接买两万个的,随机读取用- - 封了就封了 但是有些人有需求的,比如要特定地区动态拨号的 IP 游戏工作室一般会要

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/362195

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX