阿里 ECS 突然 CPU 和磁盘 IO 跑满,如何去查,给阿里提工单有用吗

2024-05-11 17:13:38 +08:00
 devzhaoyou

RT

3147 次点击
所在节点    程序员
17 条回复
leaflxh
2024-05-11 17:38:13 +08:00
可能内存满了
hefish
2024-05-11 17:43:07 +08:00
这个还是得自己看吧。 主要通过 top, vmstat 等命令看看,找到具体是啥原因。 是内存耗尽了呢,还是跑了大负载的应用了
salmon5
2024-05-11 17:44:38 +08:00
top/iotop
phx1
2024-05-11 17:59:14 +08:00
装个监控告警工具
displayabc
2024-05-11 18:09:02 +08:00
就是内存爆满,好几年都这样了,公司一台测试机每周都出这个,只能重启
chauncychan
2024-05-11 18:10:39 +08:00
监控都打掉了,只能上主机看了
Nosub
2024-05-11 22:48:41 +08:00
参考一下我 blog ,其实阿里云有官方排除步骤,https://nosub.net/posts/p/100
JKOR
2024-05-12 00:38:16 +08:00
内存满了,阿里云的小内存机子都这样,内存一满就卡死,只能重启。

机子默认没开 swap ,打开后可以缓解这个问题。我自从开启 swap 就没卡死过了。
j8sec
2024-05-12 04:41:58 +08:00
安装 atop ;
我遇到过,是 AliYunDun 这个垃圾的锅。卸载就没了
hellolinuxer
2024-05-12 19:49:23 +08:00
通过监控图看到,指标降下来了,这时候看不到现场,有什么办法能看到现场吗?
fkdtz
2024-05-12 22:10:05 +08:00
有过类似经历,我当时情况是被种了挖矿脚本导致 CPU 跑满。
解决办法是 top 找到异常进程干掉,找到异常 cron 清理掉,再把没有认证的端口都封掉。
CFM880
2024-05-13 09:58:54 +08:00
AliYunDun
cloud-init-local.service

去年是 ssh 连不上,但是重启能连,卸载两个后,很稳定
Mirana
2024-05-13 12:51:15 +08:00
流量是哪来的?
paynezhuang
2024-05-13 14:05:09 +08:00
我也前几天遇到过,看看日志呢。我是 CPU 内存全爆。

阿里工单的答复:
是 dnf 在刷新元数据。这个是 centos8 以及相关衍生操作系统的默认配置,您可以执行下面命令进行关闭:
systemctl disable dnf-makecache.timer --now

devzhaoyou
2024-05-13 21:28:49 +08:00
安装 atop 了,强制重启了,监控看看,机器上没装什么耗能的东西
devzhaoyou
2024-05-14 12:03:56 +08:00
@JKOR 感谢,准备试试
devzhaoyou
2024-05-14 12:05:54 +08:00
@CFM880 感谢

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/1039856

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX