请教:亿级数据,且有一定的反爬机制,爬虫怎么避免惊动监控且快速爬取

2018-04-15 22:40:22 +08:00
 ton4

当爬虫遇到数据量巨大且防爬机制做的好的网站时,就很尴尬,爬的太快,会被封;速度降下来,进度条就不再前进了。 请教各位 V 友们,面对大型网站随时可能更改反爬策略,需要做出如何选择呢?

1、放慢速度,尽量不被发现,以时间换数量

2、全速爬取,能爬多少是多少,被封了再想办法

3、还有其他好方法吗,求教

6056 次点击
所在节点    程序员
28 条回复
Antidictator
2018-04-16 01:09:52 +08:00
emmmmm,趁监控不注意?(看到"怎么避免惊动",突然想皮一下)
ton4
2018-04-16 09:16:45 +08:00
@Antidictator 刚觉得它没注意你,立马就被封掉的失落感啊😣
afpro
2018-04-16 09:32:08 +08:00
现在爬人家数据都这么明目张胆的嘛
afpro
2018-04-16 09:32:51 +08:00
就没考虑过发个邮件购买一份数据?
vtwoextb
2018-04-16 10:14:25 +08:00
重启路由器 机制 源码 https://github.com/hizdm/dynamic_ip
ton4
2018-04-16 12:27:35 +08:00
@afpro 发个邮件给谁
ton4
2018-04-16 12:31:33 +08:00
总结下来,简单粗暴的方法就是买非常多的代理 IP。但是还是有问题的,同类型的服务请求数量剧增,同样会引起注意,最好能模拟用户,在用户活跃的时间点里浑水摸鱼。
fate0
2018-04-16 19:31:34 +08:00
免费的 https://github.com/fate0/proxylist 了解一下

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/447061

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX