阿里云 经常无故 IO 飙升, 然后不得不重启

2016-08-12 14:36:42 +08:00
 LuoDiNate

阿里云买的服务器, 东北节点 1G 内存, 40G 盘

最近事故出现频繁, 看起来就是网站挂了, ssh 不上去, 然后超时 服务 80 和 8080 都有, 都是 pending 很久然后超时

提交工单, 客服说 io 高, 丢我一个连接让我自己折腾 麻蛋, 我连服务器都上不去, 管理终端也连不上去, 给我一个帖子能怎么解决问题,

重启后改善, 但是上面只有 mysql , docker, tomcat, 平时硬盘 io 也是 10M/s 级别, 假死时, cpu load 也才 0.2 左右,

用 iotop 监控, 发现假死时最后的监控, 前三有两个都是阿里自己的服务!

│Actual DISK READ: 203.99 M/s | Actual DISK WRITE: 87.95 K/s │ TID PRIO USER DISK READ DISK WRITE SWAPIN IO> COMMAND │ 2185 be/4 root 12.80 M/s 0.00 B/s 0.00 % 99.99 % python /usr/sbin/iotop │ 1498 be/4 root 13.35 M/s 0.00 B/s 0.00 % 99.99 % AliHids [Thread (pooled)] │ 1439 be/4 root 8.06 M/s 0.00 B/s 0.00 % 99.99 % AliHids [QThread] │ 4572 be/4 www-data 8.33 M/s 0.00 B/s 0.00 % 99.99 % apache2 -DFOREGROUND │ 4514 be/4 www-data 10.39 M/s 0.00 B/s 0.00 % 99.99 % apache2 -DFOREGROUND │ 4624 be/4 mysql 7.14 M/s 0.00 B/s 0.00 % 99.99 % mysqld │ 1400 be/4 root 9.99 M/s 0.00 B/s 0.00 % 99.99 % AliHids │ 4615 be/4 mysql 13.70 M/s 0.00 B/s 0.00 % 99.99 % mysqld │ 4621 be/4 www-data 7.53 M/s 0.00 B/s 0.00 % 99.99 % apache2 -DFOREGROUND │ 2366 be/4 dix 2.09 M/s 0.00 B/s 0.00 % 99.99 % java -Djava.util.lo~rtup.Bootstrap start │ 2105 be/4 dix 10.59 M/s 0.00 B/s 0.00 % 99.99 % tmux new -s di │ 2357 be/4 dix 1222.61 K/s 0.00 B/s 0.00 % 99.99 % java -Djava.util.lo~rtup.Bootstrap start │ 1142 be/4 root 3.10 M/s 0.00 B/s 0.00 % 99.99 % docker -d │ 1307 be/4 root 7.65 M/s 0.00 B/s 0.00 % 99.99 % AliYunDunUpdate │ 2767 be/4 dix 1099.74 K/s 1262.48 B/s 0.00 % 99.99 % java -Djava.util.lo~rtup.Bootstrap start │ 1347 be/4 root 5.19 M/s 0.00 B/s 0.00 % 99.99 % AliYunDun │ 707 be/4 root 1201.24 K/s 0.00 B/s 0.00 % 99.99 % docker -d │ 947 be/4 mysql 4.69 M/s 0.00 B/s 0.00 % 99.99 % mysqld │ 4598 be/4 mysql 1997.28 K/s 0.00 B/s 0.00 % 99.99 % mysqld │ 2945 be/4 mysql 2.03 M/s 0.00 B/s 0.00 % 99.99 % mysqld │ 1966 be/4 ntp 6.41 M/s 0.00 B/s 0.00 % 99.99 % ntpd -p /var/run/ntpd.pid -g -u 103:109 │ 2359 be/4 dix 364.52 K/s 36.16 K/s 0.00 % 99.99 % java -Djava.util.lo~rtup.Bootstrap start │ 2479 be/4 dix 198.08 K/s 0.00 B/s 0.00 % 99.99 % java -Djava.util.lo~rtup.Bootstrap start │ 3385 be/4 mysql 3.82 M/s 0.00 B/s 0.00 % 99.99 % mysqld │ 3591 be/4 mysql 1488.51 K/s 0.00 B/s 0.00 % 99.99 % mysqld │ 1495 be/4 root 3.20 M/s 0.00 B/s 0.00 % 99.99 % AliHids [Thread (pooled)] │ 2106 be/4 dix 4.36 M/s 0.00 B/s 0.00 % 99.99 % -zsh │ 945 be/4 mysql 2.92 M/s 0.00 B/s 0.00 % 87.46 % mysqld │ 4432 be/4 root 4.12 M/s 0.00 B/s 0.00 % 84.23 % apache2 -DFOREGROUND │ 2352 be/4 dix 771.79 K/s 841.65 B/s 0.00 % 83.91 % java -Djava.util.lo~rtup.Bootstrap start │ 4614 be/4 mysql 1191.38 K/s 0.00 B/s 0.00 % 75.89 % mysqld │ 4560 be/4 mysql 1310.15 K/s 0.00 B/s 0.00 % 75.77 % mysqld │ 949 be/4 mysql 1904.40 K/s 0.00 B/s 0.00 % 64.58 % mysqld │ 4570 be/4 mysql 1189.74 K/s 0.00 B/s 0.00 % 58.15 % mysqld │ 4588 be/4 mysql 1231.24 K/s 0.00 B/s 0.00 % 57.72 % mysqld │ 3622 be/4 dix 2.24 M/s 0.00 B/s 0.00 % 56.63 % sshd: dix@pts/2 │ 925 be/4 mysql 62.06 K/s 0.00 B/s 0.00 % 51.01 % mysqld

求是否有同样情况的朋友?

阿里云是不是也是虚高的配置?然后各种复用, 将负载大的用户 压到众多普通用户服务器上?

5266 次点击
所在节点    云计算
23 条回复
LuoDiNate
2016-08-12 14:37:29 +08:00
│Actual DISK READ: 203.99 M/s | Actual DISK WRITE: 87.95 K/s

│ TID PRIO USER DISK READ DISK WRITE SWAPIN IO> COMMAND

│ 2185 be/4 root 12.80 M/s 0.00 B/s 0.00 % 99.99 % python /usr/sbin/iotop

│ 1498 be/4 root 13.35 M/s 0.00 B/s 0.00 % 99.99 % AliHids [Thread (pooled)]

│ 1439 be/4 root 8.06 M/s 0.00 B/s 0.00 % 99.99 % AliHids [QThread]

这是前三
MiguelValentine
2016-08-12 14:38:32 +08:00
我之前也遇到,两次。
LuoDiNate
2016-08-12 14:45:01 +08:00
@MiguelValentine 有解决办法么?
MiguelValentine
2016-08-12 14:45:50 +08:00
@LuoDiNate - -!怼过工单,跟你一样的情况。一口咬定我这的问题。。
LuoDiNate
2016-08-12 14:56:59 +08:00
@MiguelValentine 同一个 docker 镜像, 在配置更低的 aws 上跑了半年没出过一次问题, 我 docker 导出的 zip 包来过了, 一周宕机 4/5 次, 气死我了
kozora
2016-08-12 14:58:32 +08:00
阿里个位数的 IO 我也是怕了
scys
2016-08-12 15:17:39 +08:00
阿里云跑任何 IO 都要小心: D
niudaye
2016-08-12 15:18:27 +08:00
我的也是这样,刚开始一周挂四五次,现在就是重启后也打不开了。
hgzz
2016-08-12 15:55:33 +08:00
我也遇到过很多次,后来还是把自己程序优化了一下,后面就再也没出现过了
SourceMan
2016-08-12 16:12:19 +08:00
我也是, 2 月份一次, 6 月份一次,全部站点挂掉
查询原因是 IO 突然跑满,机器假死,只能控制台“硬重启”
qcloud
2016-08-12 16:17:49 +08:00
@SourceMan 那么问题来了,是不是该换家主机商了?
SourceMan
2016-08-12 16:18:33 +08:00
@qcloud 转移备案好麻烦,企业主体,各种盖章
yangdehua
2016-08-12 16:41:53 +08:00
看看 io 能力是多少 lsblk -t -d
SourceMan
2016-08-12 17:20:07 +08:00
@yangdehua min-io 512
lun10439547
2016-08-12 17:55:27 +08:00
我已经 N 多次了。。。幸亏 不频繁。。。。也就一两个月重启一回。。。。。真烦
raykwok
2016-08-12 18:13:49 +08:00
@SourceMan 据我的经验,一点都不麻烦啊,弄好材料盖好章,走流程就行了。长痛不如短痛。
fangpeishi
2016-08-12 18:27:12 +08:00
樓主貼下對應 ECS 的 IO 監控圖看看。遇到過,一般都是 IOPS 打的過高,然後假死了,得重啓。
可以換 SSD 雲盤,換 2 系的 CPU ,開 IO 優化看看。
em70
2016-08-12 18:28:39 +08:00
mysql 部署到 RDS 去
notgod
2016-08-12 18:29:50 +08:00
你们试试 使用 nginx + pagespeed
开缓存
经常假死 nginx
查日志 全部是缓存文件读取 slow 引起的问题


这么多年这玩意还是没长进
尽然升级降级功能都找不到 谁教我下?
qcloud
2016-08-12 19:12:17 +08:00
@SourceMan 不用转移呀。。。

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/298880

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX