感觉,我可能发现了阿里云的一个秘密

2018-05-12 23:27:20 +08:00
 realpg

我维护了几十个公立医院的官方网站服务器……

它们都在阿里云

每个网站一个 ECS,每个网站独立账号,医院主体注册方便发票直接开给他们

所有网站附件都在七牛,静态资源都在 cdn 服务器,webserver 只提供动态内容

大部分都是单一 ECS,25Mbps 峰值带宽,按流量计费,预存一点钱,按流量计费,流量都很少,都是纯动态内容 少量医院不接受这种预存费之后消费开发票的,采用 5Mbps 带宽方式购买

大部分网站 5000~8000 个新闻动态输出的 HTML 页(超过一万就会删除一部分到归档数据 基本维持这个范围)

每个页基本净 HTML 文件大小 15KB-30KB

不知道从哪天起,我这里管理的所有阿里云的按流量计费的医院网站,都开始流量暴涨,以前 10G 流量包一般可用 5 个月,现在可用两天……

经过深入分析日志,所有的按流量计费的 ECS,都有大量的 UA 为 360Spider 的 bot,24 小时疯狂刷全站,每小时都把我的整站几千个新闻刷一遍……

而通过跟 360 搜索提供的资料比对,这些 BOT 的 UA 跟 360 官方 UA 不一致,且 IP 段不在 360 官方公布的爬虫 IP 段范围

它们的 IP 地址: 106.120.161.0/24 111.206.52.0/24 111.206.59.0/24 36.110.211.0/24

而我的这么多同样体量的医院网站里面,所有按带宽计费的都没出现这情况……

所以,我可能得出了一个可怕的结论:

避免被告索赔千万,算了,我啥结论也没得出,大家散了吧

25019 次点击
所在节点    程序员
131 条回复
lpd0155
2018-05-12 23:30:46 +08:00
你是说。。。
abowloflrf
2018-05-12 23:30:57 +08:00
有点意思哦
ponyxx
2018-05-12 23:34:41 +08:00
我也发现了,我以前跑过一个业务,服务器是按流量计费,我统计过一月用不了 10g 流量,之后买了个 50g 流量包,就在短短的一月时间内,我流量竟然用了 70 多 g,woc 我就是放了一个个人介绍页而已!
HXM
2018-05-12 23:35:22 +08:00
关注一下
Eoss
2018-05-12 23:36:16 +08:00
楼主保留好截图。毕竟没有一千万。
dfly0603
2018-05-12 23:36:43 +08:00
mark 一下
leaves7i
2018-05-12 23:37:04 +08:00
有没有可能是有用户在 xx 爬你网站?不过他爬这东西干什么呢
leaves7i
2018-05-12 23:37:52 +08:00
@ponyxx 这就有点意思了
realpg
2018-05-12 23:39:57 +08:00
@leaves7i #7
xx 爬我网站 我网站很简单就
http://www.target.com/article_display/1http://www.target.com/article_display/9000
每小时都给我全站爬一遍图个啥……
Bigglesworth
2018-05-12 23:39:58 +08:00
有点东西,不敢妄加判断。
mengyaoss77
2018-05-12 23:41:00 +08:00
大新闻??
cqhme
2018-05-12 23:41:48 +08:00
感觉会火 打个记号
flowfire
2018-05-12 23:42:05 +08:00
ip 拉黑吧
pupboss
2018-05-12 23:44:46 +08:00
不一定阿里云的锅,我一周前提过一个工单,也是把阿里云喷了一番,后来翻 log,发现刷流量的根本不是通过 80 443 访问,装了一个 iftop 看了看,发现了异常,配置半天 iptable,封 ip,发现没啥用,对方很多 ip,而且重启就失效。最后用阿里云网页上的安全组,只允许特定端口访问 ECS,算是解决了

仍然不知道对方是通过什么服务刷我流量,但是好像跟你情况不一样,就当是个参考吧

184.168.221.15 ,ip-50-63-202-22.ip.secureserver.net
ip 段是属于 ip.secureserver.net 的,
Applenice
2018-05-12 23:46:12 +08:00
24 小时刷全站.....这一般的爬虫采集不会这样啊.....神奇了....
Ultraman
2018-05-12 23:47:04 +08:00
要不要猜一下接下来几个月楼主网站的流量会是什么变化趋势
zn
2018-05-12 23:48:15 +08:00
一千万准备好了吗?
DGChost
2018-05-12 23:48:56 +08:00
google inurl 搜了下,还真有 article_display/1
wdlth
2018-05-12 23:50:13 +08:00
106.120.161.0/24 和 36.110.211.0/24 是数字的“态势感知”
aice114
2018-05-12 23:53:46 +08:00
首先,我们排除掉是阿里云做的这个可能

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/454381

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX