V2EX = way to explore
V2EX 是一个关于分享和探索的地方
Sign Up Now
For Existing Member  Sign In
ifsclimbing
V2EX  ›  互联网

美团的反爬虫太厉害了,各种下毒😭

  •  
  •   ifsclimbing · Jul 5, 2021 · 14695 views
    This topic created in 1757 days ago, the information mentioned may be changed or developed.
    Supplement 1  ·  Jul 9, 2021
    还是要逆向 app 啊
    43 replies    2021-07-07 12:53:06 +08:00
    Dockerfile
        1
    Dockerfile  
       Jul 5, 2021
    具体说下?
    lawsiki
        2
    lawsiki  
       Jul 5, 2021
    具体说下?
    Jooooooooo
        3
    Jooooooooo  
       Jul 5, 2021
    大公司都是一个大团队专门搞这个
    ynkkdev
        4
    ynkkdev  
       Jul 5, 2021
    给美团点赞,最近烦死爬虫了
    leido
        5
    leido  
       Jul 5, 2021
    @youngce 美团自己也爬别人
    ynkkdev
        6
    ynkkdev  
       Jul 5, 2021
    @leido #5 那就只给美团反爬的团队点赞
    Cyen
        7
    Cyen  
       Jul 5, 2021
    没有具体的了?
    ifsclimbing
        8
    ifsclimbing  
    OP
       Jul 5, 2021
    @lawsiki
    @Jwyt
    @Cyen

    比如商品的销量
    no1xsyzy
        9
    no1xsyzy  
       Jul 5, 2021
    @youngce 正因为别人反爬技术强,导致反反爬技术越来越强。
    假设一个几乎没有人会反爬的世界,那是不是你会点基础的反爬就能把所有爬虫拦截在外了?
    所以好像你也不该感谢反爬团队(
    kidult
        10
    kidult  
       Jul 5, 2021   ❤️ 2
    正常的用户都跟贼一样防着,别说爬虫了
    photon006
        11
    photon006  
       Jul 5, 2021
    用 puppetee 去爬,很难反的,只是比单纯接口调用效率低些,占用更多内存。
    arthas2234
        12
    arthas2234  
       Jul 5, 2021
    矛和盾的关系,打不过就加入
    paradoxs
        13
    paradoxs  
       Jul 5, 2021   ❤️ 1
    其实美团完全可以直接让法务部处理的,还是太善良了。
    paradoxs
        14
    paradoxs  
       Jul 5, 2021
    最最最最基础的来说,爬虫消耗了服务器额外的资源,这些都是白花花的钱。
    ifsclimbing
        15
    ifsclimbing  
    OP
       Jul 5, 2021
    TomVista
        16
    TomVista  
       Jul 5, 2021
    面向牢饭编程.dog
    zhengfan2016
        17
    zhengfan2016  
       Jul 5, 2021
    饿了么?
    zocome
        18
    zocome  
       Jul 5, 2021
    @kidult #10 淘宝:有被冒犯到
    ifsclimbing
        19
    ifsclimbing  
    OP
       Jul 5, 2021
    @zhengfan2016 饿了么没美团难
    ifsclimbing
        20
    ifsclimbing  
    OP
       Jul 5, 2021
    @zocome 没试过淘宝
    akira
        21
    akira  
       Jul 5, 2021
    只要普通用户可以正常访问,就一定有方案可以爬
    pwelyn
        22
    pwelyn  
       Jul 5, 2021
    道高一尺 魔高一丈 继续做对抗
    ifsclimbing
        23
    ifsclimbing  
    OP
       Jul 5, 2021
    @akira 是的,就是成本问题
    littlewing
        24
    littlewing  
       Jul 5, 2021
    之前看过一个帖子,数字部分用字体做反扒的
    JWilling
        25
    JWilling  
       Jul 5, 2021   ❤️ 1
    @no1xsyzy 你这逻辑是典型的 zz 逻辑,如果没有黑客是不是所有的系统就安全了。
    zjmdp
        26
    zjmdp  
       Jul 5, 2021
    我只知道用 selenium 爬淘宝,滑块验证怎么都过不去,哪位大神有办法请赐教,感激不尽
    Geebarwan
        27
    Geebarwan  
       Jul 5, 2021
    @zjmdp chromeDriver 的 特征 修改了吗?
    zjmdp
        28
    zjmdp  
       Jul 5, 2021
    @yangyifan 是下面两个设置吗?
    options.add_experimental_option('excludeSwitches', ['enable-automation'])
    options.add_argument("disable-blink-features=AutomationControlled")
    zjmdp
        29
    zjmdp  
       Jul 5, 2021
    @yangyifan 还有下面这段
    self.driver.execute_cdp_cmd(
    "Page.addScriptToEvaluateOnNewDocument",{
    "source":'''
    Object.defineProperty(navigator,'webdriver',{
    get: () => undefined
    })
    '''
    }
    )
    Cielsky
        30
    Cielsky  
       Jul 5, 2021
    @no1xsyzy 什么逻辑啊,反爬技术强说明他们爬虫技术也强啊。
    no1xsyzy
        31
    no1xsyzy  
       Jul 6, 2021
    @Zhancha 没有被我绕进去,这很好;但是缺乏一些专(bī)业(gé)性。
    coolmenu
        32
    coolmenu  
       Jul 6, 2021
    用人力分布式爬虫怎么样,外包给 10 万个印度人,没人 100 个页面。。
    Canace
        33
    Canace  
       Jul 6, 2021
    具体说下?
    karatsuba
        34
    karatsuba  
       Jul 6, 2021
    @coolmenu 龟龟,每人给一快钱也十万了
    ifsclimbing
        35
    ifsclimbing  
    OP
       Jul 6, 2021
    @coolmenu 好办法
    Geebarwan
        36
    Geebarwan  
       Jul 6, 2021
    @zjmdp 不不不, 还需要编译 chromedriver 的 源码 才可以解决。比如使用 chromedriver 浏览器 就会有这个 window.cdc_adoQpoasnfa76pfcZLmcfl_Array 属性。其实还有其他很多坑。自己慢慢去摸索吧。不止是 chromedriver,不管是无头还是有头的模式,如果没好好研究 chromium 代码,很容易就被发现。
    ifsclimbing
        37
    ifsclimbing  
    OP
       Jul 6, 2021
    @yangyifan 头大
    zjmdp
        38
    zjmdp  
       Jul 6, 2021
    @yangyifan 我是按网上的写法,直接二进制替换了字符串,看来坑不止这些。
    ml1344677
        39
    ml1344677  
       Jul 6, 2021
    曾经爬某网站,返回结果是一个不定长坐标 list,可以组成封闭图形。当触发反爬后,反爬也不屏蔽你 ip,也不返回空数据,,直接把这个 list 给乱序。。。导致每次还需要消耗资源检测是否组成封闭图形。 稳定运行了 2 天才发现。。总 list 保守估计上 10 亿计。
    HashV2
        40
    HashV2  
       Jul 7, 2021
    @youngce #6 反爬团队和爬虫团队可能是同一拨人
    TheBestSivir
        41
    TheBestSivir  
       Jul 7, 2021
    美团的反爬是专门的一个团队,属于整个集团的基础产品,是 nginx 层做了一层,做的产品好像叫 MTSI
    起码在美团外卖,很早就不搞爬虫了爬别人了
    ifsclimbing
        42
    ifsclimbing  
    OP
       Jul 7, 2021
    @TheBestSivir 美团厉害
    Geebarwan
        43
    Geebarwan  
       Jul 7, 2021
    @zjmdp 肯定的,要是有 那么简单,就不会被反爬了。自己去琢磨一下源码吧,会有很多很多地方值得去研究的。
    About   ·   Help   ·   Advertise   ·   Blog   ·   API   ·   FAQ   ·   Solana   ·   3397 Online   Highest 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 165ms · UTC 12:22 · PVG 20:22 · LAX 05:22 · JFK 08:22
    ♥ Do have faith in what you're doing.