今日头条字节跳动的蜘蛛爬虫 Bytespider(流氓至极),如何屏蔽

2019 年 10 月 22 日
 xiaomimix5

Bytespider 得知来自于头条系。一搜索发现众多小站中招。

几宗罪:

useragent 为 Mozilla/5.0 (iPhone; CPU iPhone OS 11_0 like Mac OS X) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.4988.1224 Mobile Safari/537.36; Bytespider,


我的服务器是 win server 2016,,,IIS 8.0 因业务特殊,没有用 Nginx。。

搜索到的解决方案是: 封禁 user-agent ? 屏蔽 IP 段?

请教如何在 IIS 中进行相应的设置进行封禁此恶意的抓取?

附图(转载至他站,IIS 日志中类似于此)

4690 次点击
所在节点    程序员
24 条回复
haoji
2019 年 10 月 22 日
别说之前没想过,好像他家的爬虫真的挺占资源的…
xiaomimix5
2019 年 10 月 22 日
@haoji 关键是不遵守 robots.txt 的 disallow 规则
wangyzj
2019 年 10 月 22 日
好歹人家是爬虫起家的
mamahaha
2019 年 10 月 22 日
不是靠内含段子起家的吗?
uyhyygyug1234
2019 年 10 月 22 日
如果是 Bytespider 的 ua,返回一点违禁词。。。
TheWalkingDead
2019 年 10 月 22 日
花钱找人 DDOS 你们,让他们爬虫进不来。
ddup
2019 年 10 月 22 日
举报他们非法爬取数据
nevin47
2019 年 10 月 22 日
不遵守 robots 一举报一个准啊
jeeyong
2019 年 10 月 22 日
报警吧..前段时间刚抓一家公司...
一样的事情...
alocne
2019 年 10 月 22 日
防火墙屏蔽
110.249.202.0/24
110.249.201.0/24
111.225.149.0/24
111.225.148.0/24
ClericPy
2019 年 10 月 22 日
@uyhyygyug1234 反爬听说过蜜罐藏毒的, 第一次见把自己毒死来灭蚊子的...
em70
2019 年 10 月 22 日
@mamahaha 内涵段子里的内容难道是自己写的吗
misaka19000
2019 年 10 月 22 日
报警
nyaapass
2019 年 10 月 22 日
报警 + 1
leonard916
2019 年 10 月 22 日
可以告他们 好多程序员都因此收到过传票
jinliming2
2019 年 10 月 22 日
丢个 gzip 炸弹过去
dioxide
2019 年 10 月 23 日
之前 v2 一帖子说: 某人使用爬头条的内容被头条立案起诉了... 说它是爬虫起家的真不为过.
xiaoz
2019 年 10 月 23 日
@uyhyygyug1234 奇淫技巧
zbl430
2019 年 10 月 23 日
收集证据,律师函 ->起诉

最恨的手段识别这些 ip,返回错误数据(和真的一样)
zsj950618
2019 年 10 月 23 日
salsa.debian.org 是把屏蔽了它的 ip

110.249.200.0/22, 111.225.148.0/23

反正丢人已经丢到国外了。

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/611890

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX