感觉,我可能发现了阿里云的一个秘密

2018-05-12 23:27:20 +08:00
 realpg

我维护了几十个公立医院的官方网站服务器……

它们都在阿里云

每个网站一个 ECS,每个网站独立账号,医院主体注册方便发票直接开给他们

所有网站附件都在七牛,静态资源都在 cdn 服务器,webserver 只提供动态内容

大部分都是单一 ECS,25Mbps 峰值带宽,按流量计费,预存一点钱,按流量计费,流量都很少,都是纯动态内容 少量医院不接受这种预存费之后消费开发票的,采用 5Mbps 带宽方式购买

大部分网站 5000~8000 个新闻动态输出的 HTML 页(超过一万就会删除一部分到归档数据 基本维持这个范围)

每个页基本净 HTML 文件大小 15KB-30KB

不知道从哪天起,我这里管理的所有阿里云的按流量计费的医院网站,都开始流量暴涨,以前 10G 流量包一般可用 5 个月,现在可用两天……

经过深入分析日志,所有的按流量计费的 ECS,都有大量的 UA 为 360Spider 的 bot,24 小时疯狂刷全站,每小时都把我的整站几千个新闻刷一遍……

而通过跟 360 搜索提供的资料比对,这些 BOT 的 UA 跟 360 官方 UA 不一致,且 IP 段不在 360 官方公布的爬虫 IP 段范围

它们的 IP 地址: 106.120.161.0/24 111.206.52.0/24 111.206.59.0/24 36.110.211.0/24

而我的这么多同样体量的医院网站里面,所有按带宽计费的都没出现这情况……

所以,我可能得出了一个可怕的结论:

避免被告索赔千万,算了,我啥结论也没得出,大家散了吧

25064 次点击
所在节点    程序员
131 条回复
huhu3312
2018-05-12 23:54:04 +08:00
求问 1 千万是什么梗
takato
2018-05-12 23:54:07 +08:00
#20 +1
sfqtsh
2018-05-12 23:54:59 +08:00
楼上一些人不会仔细看贴吗,lz 都说了 按带宽计费的都没出现这情况 按流量计费的都出现了这情况
realpg
2018-05-12 23:57:06 +08:00
@Applenice #15
每小时一次 刷全站的链接 后面数字自增 step2 两组 IP 分别刷奇数参数和偶数参数
一小时一次 刷完就拉倒 下一个小时继续来 并发数非常大,一秒几十个请求(对于超低配 ECS 算是流量巨大了)



@pupboss #14
@leaves7i #7
我这有个

XXXX 大学附属 AA 医院
XXXX 大学附属 BB 医院
XXXX 大学附属 CC 医院
XXXX 大学附属 DD 医院
XXXX 大学附属 EE 医院

其中,附属 DD 医院的领导不同意按流量计费的方式结算,要求一口价开发票,所以我给他们医院买的 5Mbps 带宽,其他四个都是按流量计费

现在 AA BB CC EE 医院都是这个 360spider 泛滥 DD 医院啥事儿没有……你说这是啥套路
tyit
2018-05-12 23:57:17 +08:00
不知道咋回事,最近天,好多国外的 IP 爆破过来,一直狂扫,是不是有大事要发生???
kennedy32
2018-05-12 23:59:40 +08:00
火前留名,不过最好工单提交认真分析一波,不能单从 IP 判断
wdlth
2018-05-13 00:00:19 +08:00
@sfqtsh LZ 说按带宽计费采用 5Mbps 带宽方式购买,而按流量计费 25Mbps 峰值带宽,这 20Mbps 的差距爬虫还是可以检测出来的。
如果 LZ 把按带宽计费改成 100Mbps 的,各种“态势感知”会爬得更欢快……
sfqtsh
2018-05-13 00:03:17 +08:00
@wdlth 谢科普
realpg
2018-05-13 00:04:28 +08:00
@wdlth #27
附属 DD 医院无这个 IP 地址的爬虫记录
realpg
2018-05-13 00:06:04 +08:00
屏蔽 IP 流量包立竿见影的不掉了
suit
2018-05-13 00:10:02 +08:00
以前碰到过类似的情况,不过不是阿里云的,一些百度蜘蛛(?)的 ip 在那狂刷流量,一天 30 个 G,后来直接屏蔽掉
suit
2018-05-13 00:11:39 +08:00
开始我也怀疑是主机商干的,但是后面再也没出现过这样的情况
wdlth
2018-05-13 00:13:10 +08:00
@realpg 既然是爬虫,不可能全球网站都能爬完。你可以尝试把 DD 网站添加到数字的网站安全检测、百度云观测什么的,流量就 duang 的没了……
logOo
2018-05-13 00:14:04 +08:00
隔壁有人说网站被百度蜘蛛爬挂了该怎么办。
q9REUgpVVCU77pWj
2018-05-13 00:14:25 +08:00
要不要先埋几十个伪造页面,万一将来有可能跟踪到呢?
e9e499d78f
2018-05-13 00:14:40 +08:00
有一个简单的方法,对于日志中 UA 包含 360spider 的记录,查询 IP 的 ptr 记录,如果不是 360 的 ip 则封禁。
Applenice
2018-05-13 00:21:04 +08:00
@realpg 之后再观察一下吧
opengps
2018-05-13 00:28:57 +08:00
感觉是触碰某种服务了,被频繁检测
yaoqianglee
2018-05-13 00:33:18 +08:00
以安全名义自我审查“敏感词”,趁机假公济私把流量计费的客户羊毛给薅了,顺便把绿帽扔给数字。
外面问起来就说是数字的虫子干的,关我 P 事。
内部查起来就说是帮上面审查敏感词,哪个敢反怼。
反正真金白银都到自己口袋了。
纯属瞎编,绝对不是事实,谢绝跨省。
E1n
2018-05-13 01:00:28 +08:00
等大佬科普 z

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/454381

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX