关于微信小程序的官方爬虫

2019-04-15 18:25:42 +08:00
 sholmesian

今天发现微信小程序的数据接口被上百个微信昵称为三个字的新微信用户爬了个遍:

其主要 IP 来源 IP 如下:

101.91.60.x 220.181.108.x 223.166.222.x 101.91.60.x

搜索了一下,发现我不是一个人

这些用户的访问有以下几个特征:

  1. 不会被记入小程序前端页面访问统计,都是直接给登陆的接口发送小程序的 code,后端得到的 code 能通过微信授权验证。
  2. 得到后端授权后目的性很强地开始爬数据,每个用户访问的内容除了列表外基本不交叉,访问间歇都为几秒钟,一个一个 C 段的 IP 轮着来,都是从凌晨开始密集访问。
  3. UA 类似"Mozilla/5.0 (iPhone; CPU iPhone OS 11_0 like Mac OS X) AppleWebKit/604.1.38 (KHTML, like Gecko) Version/11.0 Mobile/15A372 Safari/604.1 MicroMessenger/6.5 mpcrawler",都带有“ mpcrawler ”字样。

基于此大概率可以认为这是微信小程序的官方爬虫,供大家参考。

PS:对应的微信小程序中“关联公众号设置”是“不允许关联”,“页面收录设置”也是“不允许被收录”,不知为什么还是会被爬。

5142 次点击
所在节点    微信
3 条回复
123s
2019-04-15 20:53:52 +08:00
我还以为是测试人员
PqgpNgA0wk
2019-04-16 08:26:02 +08:00
我也以为是测试人员,隔几天就一个只有用户名没有其他信息的用户访问一个页面
uiosun
2021-03-01 16:30:50 +08:00
不是微信的,是模拟 code 然后爬数据的,估计是灰 /黑产

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/555432

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX