请教:亿级数据,且有一定的反爬机制,爬虫怎么避免惊动监控且快速爬取

2018-04-15 22:40:22 +08:00
 ton4

当爬虫遇到数据量巨大且防爬机制做的好的网站时,就很尴尬,爬的太快,会被封;速度降下来,进度条就不再前进了。 请教各位 V 友们,面对大型网站随时可能更改反爬策略,需要做出如何选择呢?

1、放慢速度,尽量不被发现,以时间换数量

2、全速爬取,能爬多少是多少,被封了再想办法

3、还有其他好方法吗,求教

6040 次点击
所在节点    程序员
28 条回复
R18
2018-04-15 22:47:36 +08:00
代理池了解一下
zhjits
2018-04-15 22:48:00 +08:00
多买 IP 地址
golmic
2018-04-15 22:59:17 +08:00
愿意付费我可以接
ton4
2018-04-15 23:04:34 +08:00
@R18 @zhjits 目前用的这个 https://github.com/jhao104/proxy_pool 能找到百来个代理。
几亿的数据 几百个代理够用吗
boom7
2018-04-15 23:11:44 +08:00
都亿级数据了你还想着用免费代理…差这点钱?
beforeuwait
2018-04-15 23:12:30 +08:00
这种情况哈,多代理的是必须的。
ton4
2018-04-15 23:18:51 +08:00
@boom7 哈哈 刚开始玩数据
ton4
2018-04-15 23:23:01 +08:00
@beforeuwait 多代理搞起啊,有好用的推荐一下
ton4
2018-04-15 23:23:28 +08:00
@golmic 加你了
sw10
2018-04-15 23:26:17 +08:00
几百个代理,有点少。我维护的一个商用代理池,一天的代理量都有 40 万。

感兴趣的话,可以了解下:
/t/424630
golmic
2018-04-15 23:40:13 +08:00
@ton4 微信没收到请求
golmic
2018-04-15 23:40:34 +08:00
@ton4 公众号 pydatame 有我联系方式
woscaizi
2018-04-15 23:43:48 +08:00
@sw10 私密代理是如何达到 10 万的呢,好奇。
woscaizi
2018-04-15 23:44:43 +08:00
@sw10 宽带重播吗?
ton4
2018-04-15 23:49:19 +08:00
@golmic OK 加你公众号了,明天找你聊
lihongming
2018-04-15 23:53:53 +08:00
免费不太可能。
我知道一家跟你差不多的,亿级数据,有反爬措施。不仅如此,要爬的信息还是付费的,每个付费账号只能爬几千条。
他们在公司附近租了个民房,里面拉了 N 条宽带,电信联通移动等,能拉的都拉,能装几条就装几条(本来联通限制每个地址只能装 2 条,但搞定装机师傅,可以以邻居的地址装)。房间里放个机柜,服务器上跑的全是爬虫,爬几条就重新拨号换 IP、换账号……
gabon
2018-04-15 23:57:16 +08:00
某代理网站买动态代理爬了一亿多的微博数据。
gabon
2018-04-15 23:58:12 +08:00
@lihongming 原来是这样。。之前买的时候还在想他们怎么搞的
knightdf
2018-04-16 00:19:09 +08:00
@lihongming 牛逼
simonsww
2018-04-16 00:40:39 +08:00
@lihongming 这种的话,在一个地方,不停的拨号每天能获取的 ip 也是有限的吧,就算电信+联通+移动,每天 ip 数应该有限吧。(不过我没试验过)

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/447061

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX