在写一个爬虫代理服务,有人需要吗?

2016-09-02 13:10:17 +08:00
 sivacohan
因为之前写了一些小爬虫,管理代理池一直是一个很麻烦的事情。所以就写了一个小东西。来帮助自己管理代理池,自动更换出口代理 IP 。

目前已经实现的功能有:
1 、标准的 HTTP 代理 Basic Auth
2 、利用 HTTP header 来区分进程,即一台服务器上有多个 fetcher 进程将分配多个出口 IP
3 、对于同一个进程,按照不同的请求域名进行分流,即一个 fetcher 也有可能会分得多个 IP
4 、状态监控,对于返回 403 , 500 的请求直接更换出口 IP
5 、简单的,基于正则的结果验证,用户可以检测“请输入验证码”,“稍后再试等情况”
6 、目前支持 GET, POST, PUT, DELETE 方法

正在准备支持的功能:
1 、增加 Web 管理界面
2 、增加 HTTPS 支持,目前不支持 connect 方法
3 、为部分网站增加缓存

简单来说,这就是一个代理服务,与常规代理不同的是,我可以为一台机器分配更多的出口,极限情况为:一台机器的 fetcher 进程数 n ,抓取的网站数量 m ,出口数量 p = n*m

有人对这个东西有兴趣吗?如果做成一个平台,你希望得到什么样的服务,以及你愿意为这个服务支付多少费用呢?
4144 次点击
所在节点    问与答
16 条回复
pango
2016-09-02 13:16:17 +08:00
其他都是空的。
关键是:你们有多少个 ip ?都分布在哪些国家?都是干净的吗?
laoyuan
2016-09-02 13:27:56 +08:00
接口可以简单点,两个参数验证身份,一个目标 URL ,一个方法,一个 POST 的 raw data 。
费用可以设几个档,我大概一个月几千万请求,不到一个 T 流量,可能用到几十上百个 IP ,一月 100 块钱肯定出的起。
gimp
2016-09-02 13:35:12 +08:00
@laoyuan 这个需求, 100 软妹币太少太少了。
laurent
2016-09-02 14:14:33 +08:00
我最近也写了个类似的东西,实际使用下来,发现最关键的还是代理 IP 的质量。代理 IP 质量不好的话,爬虫大多数时间都卡在等待可用 IP 上了。所以觉得这个服务的最大价值在于代理 IP ,那么定价自然是参考其他的代理 IP 提供商咯。
sivacohan
2016-09-02 14:50:54 +08:00
@pango 目前正在计划,主要就面向国内用户了。当前自己用了 20 多个 IP ,主要是阿里云和百度云的。如果有人需要的话,就再买些 IP 咯。网上的免费 IP 只能当玩具用。


@laoyuan 不知道你爬去的是什么网站。我流量和你差不多,总共才用了 10 个 IP 。

@gimp 终于有人给了一个中肯的评价了。他那个需求,自建的成本怎么也得 3k 到 4k 。

@laurent 我现在是想找些人自建 IP 池,免费 IP + 各种云的 IP + 少量 ADSL 小区宽带。而实际上,我这个不太好定价。代理服务商是多少钱多少 IP ,封了就没了。我是根据爬去情况动态更换的。有人捣乱我这边会跪的很惨的……
herozzm
2016-09-02 18:29:04 +08:00
关心 IP 池怎么来的
imn1
2016-09-02 18:36:13 +08:00
同 1 楼,我想爬北都集团, 2333
fchypzero
2016-09-02 20:54:53 +08:00
對這套感興趣,畢竟手上有很多 ADSL 寬帶
gimp
2016-09-03 00:07:18 +08:00
https://luminati.io/
http://crawlera.com/
https://www.proxyrain.com/

挺正规的爬虫代理服务商,价格供参考。
scnace
2016-09-03 01:34:53 +08:00
好巧 我最近也在写 我连 ip 池都是免费的代理那里抓来的 233 大概有 7w 个 还没测 不知道能用的有多少。。。
daiv
2017-01-11 09:11:00 +08:00
楼主做出来了吗?
我想要稳定一些的代理 IP 。

例如一个 IP 用一个星期
sivacohan
2017-01-11 15:03:41 +08:00
@daiv

做完自己用了,只做 IP 池管理。
你的需求可以考虑用 bae 的 Python worker 版,单个 IP 一个月大概才 4 块钱。
daiv
2017-01-11 15:10:11 +08:00
@sivacohan 这么好? 我去试试。 除了 IP 费用,其他无费用了?
sivacohan
2017-01-11 16:12:14 +08:00
@daiv bae ,提供一个 Python worker 环境。选最低内存最便宜那个。

在上面部署一个 tornado 的代理。
然后你需要申请一个端口转发,每月好像一块钱吧。

很简单,看一下就明白了。这是市面上能直接买到的最便宜的 IP 了。
hadoop
2017-02-01 23:59:00 +08:00
@sivacohan 赞啊,这思路不错。如果 bae 能自动开,就更好了。带宽被限制了吧?
sivacohan
2017-02-02 00:27:47 +08:00
@hadoop

没法自动开,接口都跪了。
单个用户限制 100 个 bae 实例。
而且量大的话,可能会有几个 bae 分到一个 ip 的情况。
玩玩可以,实际的话,成本肯定更高。

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/303441

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX