请问各位大佬, Linux 在空闲时期时不时死机该怎么排查?

2023-02-21 09:14:59 +08:00
 Wdafff

1.服务器运行快一年了,最近一个月内,空闲时 CPU 突然飙升,然后死机。

2.添加了 crash log ,死机重启后并没有日志。

3.系统是 CentOS Linux 7 ,Kernel: Linux 3.10.0-1160.71.1.el7.x86_64 。

4.服务器是一台 CDH6.3.2 数据节点,配置 24C128G 。

1539 次点击
所在节点    问与答
19 条回复
msclelo
2023-02-21 09:26:54 +08:00
1. 开启 coredump ,必要时 gdb 分析日志,对技术要求高一点
2. 检查下系统日志,看能不能找到些蛛丝马迹
3. 通过脚本获取 cpu 、内存占用信息,排查下是不是哪个进程导致(这种不一定有效,特别是突发情况,很难捕捉和定位到具体根因)
4. 重装大法
wuruxu
2023-02-21 09:31:37 +08:00
整个监控脚本,CPU 飙升时,运行 top 看看是那个软件搞事情,然后对症下药
Wdafff
2023-02-21 09:35:17 +08:00
@msclelo #1 2 、3 都排查过了,看不出问题,现在试试开启 coredump ,实在不行再重装了
pupboss
2023-02-21 09:39:27 +08:00
CPU 飙升有时候是磁盘 IO 等待导致的,你这个情况可以重点排查磁盘
Wdafff
2023-02-21 09:40:11 +08:00
@wuruxu #2 CPU 开始上升时就已经死机了,所有的监控都断了,脚本还会运行吗
tlxxzj
2023-02-21 09:44:45 +08:00
对网络流量监控看看,可能是被挖矿了
Wdafff
2023-02-21 09:45:08 +08:00
@pupboss #4 空闲时也有可能死机,看历史监控磁盘 IO 并不高,单独压测服务器又没有问题
jinyunboss
2023-02-21 09:45:53 +08:00
找块新硬盘 dd 过去,排除硬盘问题
Wdafff
2023-02-21 09:46:27 +08:00
@tlxxzj #6 内网服务器也不安装其他软件,应该不会吧,流量看着和其他正常服务器差别不大
duzhor
2023-02-21 09:54:02 +08:00
你都说是 hadoop 节点了。cpu 、内存、磁盘,不外乎这几个导致的,大部分情况可能是内存频繁 OOM 、磁盘读写过高而引起,写个脚本记录 top10 进程,总能找到蛛丝马迹
Eytoyes
2023-02-21 09:56:20 +08:00
物理服务器可以跑硬件诊断看看,排除硬件问题

遇到过一个问题和你类似,也是不定期卡死,高负载、低负载都会死,后来跑诊断到 cpu 直接卡死,400 来换了个 CPU 之后故障消失
Wdafff
2023-02-21 09:59:14 +08:00
@Eytoyes #11 就是跑一遍压测吗
fengfisher3
2023-02-21 10:06:10 +08:00
如果进程占用系统层面的问题都排查了。那就可能是操作系统(重装系统)或硬件的问题大概率是磁盘。Eytoyes 说得对。
fengfisher3
2023-02-21 10:08:17 +08:00
不过,如果你是最近一个月才出现的问题,按理不应该是系统和硬件的呢。出问题前有没有做过什么调整,包括搬动位置,或者是修改过什么配置等,先从有变动的地方去定位问题。
Wdafff
2023-02-21 10:13:33 +08:00
@fengfisher3 #14 硬件、系统没有改动,唯一改动的就是任务代码,但是代码有问题也不应该就影响一台服务器
Eytoyes
2023-02-21 10:18:09 +08:00
@Wdafff #12 服务器 boot 时选择 Hardware Diagnostics 功能,全面检测耗时较长,建议在允许服务器长时间下线的情况下再去操作
bitdepth
2023-02-21 11:38:43 +08:00
如果是 hardware 問題,你這個 server 沒有 BMC 嗎?
LXGMAX
2023-02-21 14:19:01 +08:00
遇到过硬盘坏块导致系统动不了的,可以扫磁盘看看
la2la
2023-02-21 14:27:03 +08:00
CDH 数据节点,直接下线重做系统

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/917806

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX