谁知道类似"Mozilla/3 (X8 Windows) AppleWebKit.... " 这样的 user agent 是怎么回事?

2016-06-03 10:12:04 +08:00
 seerhut
今天发现访问日志中大量的此类 user agent , IP 还很分散,全国各地都有。这是什么新的浏览器么?还是分布式爬虫?

"Mozilla/3 (X13 Windows) AppleWebKit/513.17 (KHTML, like Gecko) Chrome/ Safari/513.17"
"Mozilla/3 (X8 Windows) AppleWebKit/551.44 (KHTML, like Gecko) Chrome/ Safari/551.44"
"Mozilla/4 (X6 Windows) AppleWebKit/541.47 (KHTML, like Gecko) Chrome/ Safari/541.47"
"Mozilla/5 (X13 Windows) AppleWebKit/520.66 (KHTML, like Gecko) Chrome/ Safari/520.66"
2041 次点击
所在节点    问与答
4 条回复
fcicq
2016-06-03 10:31:08 +08:00
这必然是坏爬虫无疑... 现代浏览器大多 Mozilla/5.0 开头. AppleWebKit 大多数后面跟的 537.36. Chrome/ 后面没版本号. 槽点也太多了.
notgod
2016-06-03 10:51:19 +08:00
自定义的 ua
不过这个定义的有些傻
seerhut
2016-06-03 11:10:51 +08:00
@fcicq
@notgod
关键是已经出现了数百个使用此 user agent 的 IP ,但访问的接口没有任何可爬取的内容,请求也没有恶意内容。。。。

我开始怀疑是某些分布式监控系统出现了异常,把我们的地址加入监控了
notgod
2016-06-03 12:05:02 +08:00
@seerhut

PS : 爬虫不会识别是不是有可爬取的内容

爬虫只是归因所有的 URL 链接
你应该检查下 这些接口的 url 是不是在哪里公开泄露了 在什么地方有公开贴出来
被爬虫存档到链接库里 然后被爬虫识别到了 导致的这个问题

另外注意下 查看下日志 这些 IP 最开始爬的时候 有无读取 robots.txt 文件
如果有的话 加个 robots.txt 禁止所有爬虫爬取
大部分爬虫还是会遵守规则的

监控集群的话 是没这种规模的
监控一般最大一个区域部署 /24 对外的公网 IP 用于请求
你那动不动就几百个 IP 明显不是监控

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/283174

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX