今日头条字节跳动的蜘蛛爬虫 Bytespider(流氓至极),如何屏蔽

2019-10-22 21:58:33 +08:00
 xiaomimix5

Bytespider 得知来自于头条系。一搜索发现众多小站中招。

几宗罪:

useragent 为 Mozilla/5.0 (iPhone; CPU iPhone OS 11_0 like Mac OS X) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.4988.1224 Mobile Safari/537.36; Bytespider,


我的服务器是 win server 2016,,,IIS 8.0 因业务特殊,没有用 Nginx。。

搜索到的解决方案是: 封禁 user-agent ? 屏蔽 IP 段?

请教如何在 IIS 中进行相应的设置进行封禁此恶意的抓取?

附图(转载至他站,IIS 日志中类似于此)

3296 次点击
所在节点    程序员
24 条回复
haoji
2019-10-22 22:01:16 +08:00
别说之前没想过,好像他家的爬虫真的挺占资源的…
xiaomimix5
2019-10-22 22:04:45 +08:00
@haoji 关键是不遵守 robots.txt 的 disallow 规则
wangyzj
2019-10-22 22:12:13 +08:00
好歹人家是爬虫起家的
mamahaha
2019-10-22 22:13:37 +08:00
不是靠内含段子起家的吗?
uyhyygyug1234
2019-10-22 22:18:59 +08:00
如果是 Bytespider 的 ua,返回一点违禁词。。。
TheWalkingDead
2019-10-22 22:26:10 +08:00
花钱找人 DDOS 你们,让他们爬虫进不来。
ddup
2019-10-22 22:28:22 +08:00
举报他们非法爬取数据
nevin47
2019-10-22 22:35:20 +08:00
不遵守 robots 一举报一个准啊
jeeyong
2019-10-22 23:00:48 +08:00
报警吧..前段时间刚抓一家公司...
一样的事情...
alocne
2019-10-22 23:01:32 +08:00
防火墙屏蔽
110.249.202.0/24
110.249.201.0/24
111.225.149.0/24
111.225.148.0/24
ClericPy
2019-10-22 23:01:57 +08:00
@uyhyygyug1234 反爬听说过蜜罐藏毒的, 第一次见把自己毒死来灭蚊子的...
em70
2019-10-22 23:08:22 +08:00
@mamahaha 内涵段子里的内容难道是自己写的吗
misaka19000
2019-10-22 23:09:35 +08:00
报警
nyaapass
2019-10-22 23:16:17 +08:00
报警 + 1
leonard916
2019-10-22 23:16:53 +08:00
可以告他们 好多程序员都因此收到过传票
jinliming2
2019-10-22 23:51:11 +08:00
丢个 gzip 炸弹过去
dioxide
2019-10-23 00:06:03 +08:00
之前 v2 一帖子说: 某人使用爬头条的内容被头条立案起诉了... 说它是爬虫起家的真不为过.
xiaoz
2019-10-23 02:02:03 +08:00
@uyhyygyug1234 奇淫技巧
zbl430
2019-10-23 09:20:13 +08:00
收集证据,律师函 ->起诉

最恨的手段识别这些 ip,返回错误数据(和真的一样)
zsj950618
2019-10-23 09:33:32 +08:00
salsa.debian.org 是把屏蔽了它的 ip

110.249.200.0/22, 111.225.148.0/23

反正丢人已经丢到国外了。

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/611890

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX