V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
ton4
V2EX  ›  程序员

请教:亿级数据,且有一定的反爬机制,爬虫怎么避免惊动监控且快速爬取

  •  1
     
  •   ton4 · 2018-04-15 22:40:22 +08:00 · 6001 次点击
    这是一个创建于 2175 天前的主题,其中的信息可能已经有所发展或是发生改变。

    当爬虫遇到数据量巨大且防爬机制做的好的网站时,就很尴尬,爬的太快,会被封;速度降下来,进度条就不再前进了。 请教各位 V 友们,面对大型网站随时可能更改反爬策略,需要做出如何选择呢?

    1、放慢速度,尽量不被发现,以时间换数量

    2、全速爬取,能爬多少是多少,被封了再想办法

    3、还有其他好方法吗,求教

    28 条回复    2018-04-16 19:31:34 +08:00
    R18
        1
    R18  
       2018-04-15 22:47:36 +08:00 via Android
    代理池了解一下
    zhjits
        2
    zhjits  
       2018-04-15 22:48:00 +08:00
    多买 IP 地址
    golmic
        3
    golmic  
       2018-04-15 22:59:17 +08:00 via Android
    愿意付费我可以接
    ton4
        4
    ton4  
    OP
       2018-04-15 23:04:34 +08:00
    @R18 @zhjits 目前用的这个 https://github.com/jhao104/proxy_pool 能找到百来个代理。
    几亿的数据 几百个代理够用吗
    boom7
        5
    boom7  
       2018-04-15 23:11:44 +08:00 via Android
    都亿级数据了你还想着用免费代理…差这点钱?
    beforeuwait
        6
    beforeuwait  
       2018-04-15 23:12:30 +08:00
    这种情况哈,多代理的是必须的。
    ton4
        7
    ton4  
    OP
       2018-04-15 23:18:51 +08:00
    @boom7 哈哈 刚开始玩数据
    ton4
        8
    ton4  
    OP
       2018-04-15 23:23:01 +08:00
    @beforeuwait 多代理搞起啊,有好用的推荐一下
    ton4
        9
    ton4  
    OP
       2018-04-15 23:23:28 +08:00
    @golmic 加你了
    sw10
        10
    sw10  
       2018-04-15 23:26:17 +08:00
    几百个代理,有点少。我维护的一个商用代理池,一天的代理量都有 40 万。

    感兴趣的话,可以了解下:
    /t/424630
    golmic
        11
    golmic  
       2018-04-15 23:40:13 +08:00 via Android
    @ton4 微信没收到请求
    golmic
        12
    golmic  
       2018-04-15 23:40:34 +08:00 via Android
    @ton4 公众号 pydatame 有我联系方式
    woscaizi
        13
    woscaizi  
       2018-04-15 23:43:48 +08:00 via iPhone
    @sw10 私密代理是如何达到 10 万的呢,好奇。
    woscaizi
        14
    woscaizi  
       2018-04-15 23:44:43 +08:00 via iPhone
    @sw10 宽带重播吗?
    ton4
        15
    ton4  
    OP
       2018-04-15 23:49:19 +08:00
    @golmic OK 加你公众号了,明天找你聊
    lihongming
        16
    lihongming  
       2018-04-15 23:53:53 +08:00 via Android   ❤️ 2
    免费不太可能。
    我知道一家跟你差不多的,亿级数据,有反爬措施。不仅如此,要爬的信息还是付费的,每个付费账号只能爬几千条。
    他们在公司附近租了个民房,里面拉了 N 条宽带,电信联通移动等,能拉的都拉,能装几条就装几条(本来联通限制每个地址只能装 2 条,但搞定装机师傅,可以以邻居的地址装)。房间里放个机柜,服务器上跑的全是爬虫,爬几条就重新拨号换 IP、换账号……
    gabon
        17
    gabon  
       2018-04-15 23:57:16 +08:00 via Android
    某代理网站买动态代理爬了一亿多的微博数据。
    gabon
        18
    gabon  
       2018-04-15 23:58:12 +08:00 via Android
    @lihongming 原来是这样。。之前买的时候还在想他们怎么搞的
    knightdf
        19
    knightdf  
       2018-04-16 00:19:09 +08:00
    @lihongming 牛逼
    simonsww
        20
    simonsww  
       2018-04-16 00:40:39 +08:00
    @lihongming 这种的话,在一个地方,不停的拨号每天能获取的 ip 也是有限的吧,就算电信+联通+移动,每天 ip 数应该有限吧。(不过我没试验过)
    Antidictator
        21
    Antidictator  
       2018-04-16 01:09:52 +08:00
    emmmmm,趁监控不注意?(看到"怎么避免惊动",突然想皮一下)
    ton4
        22
    ton4  
    OP
       2018-04-16 09:16:45 +08:00 via iPhone
    @Antidictator 刚觉得它没注意你,立马就被封掉的失落感啊😣
    afpro
        23
    afpro  
       2018-04-16 09:32:08 +08:00
    现在爬人家数据都这么明目张胆的嘛
    afpro
        24
    afpro  
       2018-04-16 09:32:51 +08:00
    就没考虑过发个邮件购买一份数据?
    vtwoextb
        25
    vtwoextb  
       2018-04-16 10:14:25 +08:00
    重启路由器 机制 源码 https://github.com/hizdm/dynamic_ip
    ton4
        26
    ton4  
    OP
       2018-04-16 12:27:35 +08:00
    @afpro 发个邮件给谁
    ton4
        27
    ton4  
    OP
       2018-04-16 12:31:33 +08:00
    总结下来,简单粗暴的方法就是买非常多的代理 IP。但是还是有问题的,同类型的服务请求数量剧增,同样会引起注意,最好能模拟用户,在用户活跃的时间点里浑水摸鱼。
    fate0
        28
    fate0  
       2018-04-16 19:31:34 +08:00   ❤️ 1
    免费的 https://github.com/fate0/proxylist 了解一下
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   我们的愿景   ·   实用小工具   ·   2611 人在线   最高记录 6543   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 27ms · UTC 15:34 · PVG 23:34 · LAX 08:34 · JFK 11:34
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.