今日头条字节跳动的蜘蛛爬虫 Bytespider(流氓至极),如何屏蔽

2019-10-22 21:58:33 +08:00
 xiaomimix5

Bytespider 得知来自于头条系。一搜索发现众多小站中招。

几宗罪:

useragent 为 Mozilla/5.0 (iPhone; CPU iPhone OS 11_0 like Mac OS X) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.4988.1224 Mobile Safari/537.36; Bytespider,


我的服务器是 win server 2016,,,IIS 8.0 因业务特殊,没有用 Nginx。。

搜索到的解决方案是: 封禁 user-agent ? 屏蔽 IP 段?

请教如何在 IIS 中进行相应的设置进行封禁此恶意的抓取?

附图(转载至他站,IIS 日志中类似于此)

3323 次点击
所在节点    程序员
24 条回复
humor66
2019-10-23 10:16:44 +08:00
不赶紧爬,怎么做搜索?
cnrting
2019-10-23 12:19:19 +08:00
屏蔽 ip 最简单有效
unclemcz
2019-10-23 13:30:02 +08:00
直接封 IP 吧,我对 Bytespider 的操作是这么处理的,很简单很暴力,只要特定页面记录访客浏览记录( ua、ip ),程序定期检索访客的 ua,检索到关键字后,将对应的 ip 加到屏蔽列表。
skenan
2019-10-25 02:56:34 +08:00
自己用的..
```
if ($http_user_agent ~* (bytespider|scrapy)) {
return 444;
}
```

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/611890

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX