sholmesian
V2EX  ›  微信

关于微信小程序的官方爬虫

  •  
  •   sholmesian · Apr 15, 2019 · 5800 views
    This topic created in 2626 days ago, the information mentioned may be changed or developed.

    今天发现微信小程序的数据接口被上百个微信昵称为三个字的新微信用户爬了个遍:

    userlist

    其主要 IP 来源 IP 如下:

    101.91.60.x 220.181.108.x 223.166.222.x 101.91.60.x

    log

    搜索了一下,发现我不是一个人

    这些用户的访问有以下几个特征:

    1. 不会被记入小程序前端页面访问统计,都是直接给登陆的接口发送小程序的 code,后端得到的 code 能通过微信授权验证。
    2. 得到后端授权后目的性很强地开始爬数据,每个用户访问的内容除了列表外基本不交叉,访问间歇都为几秒钟,一个一个 C 段的 IP 轮着来,都是从凌晨开始密集访问。
    3. UA 类似"Mozilla/5.0 (iPhone; CPU iPhone OS 11_0 like Mac OS X) AppleWebKit/604.1.38 (KHTML, like Gecko) Version/11.0 Mobile/15A372 Safari/604.1 MicroMessenger/6.5 mpcrawler",都带有“ mpcrawler ”字样。

    基于此大概率可以认为这是微信小程序的官方爬虫,供大家参考。

    PS:对应的微信小程序中“关联公众号设置”是“不允许关联”,“页面收录设置”也是“不允许被收录”,不知为什么还是会被爬。

    3 replies    2021-03-01 16:30:50 +08:00
    123s
        1
    123s  
       Apr 15, 2019
    我还以为是测试人员
    PqgpNgA0wk
        2
    PqgpNgA0wk  
       Apr 16, 2019 via Android
    我也以为是测试人员,隔几天就一个只有用户名没有其他信息的用户访问一个页面
    uiosun
        3
    uiosun  
       Mar 1, 2021
    不是微信的,是模拟 code 然后爬数据的,估计是灰 /黑产
    About   ·   Help   ·   Advertise   ·   Blog   ·   API   ·   FAQ   ·   Solana   ·   1264 Online   Highest 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 33ms · UTC 23:38 · PVG 07:38 · LAX 16:38 · JFK 19:38
    ♥ Do have faith in what you're doing.