Ubuntu20.04,出现卡住,没有任何响应,怎么调查?

2023-04-27 10:30:52 +08:00
 rwecho

最近有三台 ubuntu20.04 服务器,都是安装的桌面版本,最近有三台频繁出问题。(这三台都是用的国内的内存和硬盘品牌)

出现的问题特征是没有任何响应,但是灯光正常,不是睡眠状态。如果正常接显示器了,显示器会有输出,甚至时间还在向前走,但是硬盘里面没有日志。

日志( syslog )显示从 4.24 11:36~4.26 13:38 之间没有日志产生

这是 4.26 上午 11:33 拍的照片。这个时候系统已经没有任何响应了, 包括 ssh 键盘鼠标,其中运行的服务也没有产生日志。

这是 last 的信息

我这里只看了 syslog syslog.1 日志,不知道从哪里还能看到更多硬件信息和状态。另外这三台机器都有 2060 显卡和 cuda 驱动。

现在的有几个疑惑:

  1. linux 有没有类似蓝屏机制
  2. 如果是内存问题,机器的时间还在运行正常不?
  3. 如果是内存和硬盘问题,怎么确认和找出证据。
  4. 有没有可能是显卡驱动问题,但是我们已经有 10 几台 ubuntu20.04 的机器了
2933 次点击
所在节点    Ubuntu
18 条回复
LJNlol
2023-04-27 10:47:24 +08:00
我一般看日志用的都是 journalctl ( ubuntu 应该也有吧),可以试试看能不能找出有用的信息来。
或许 OP 可以试着给服务器开个 ssh ,然后出问题了试着用 ssh 连上去排查一下,连不上那就是整个系统炸了一般。

Linux 有 Kernel Panic ,但我个人没遇见过。一般桌面 linux 都是桌面环境崩掉,内核本身应该还是非常稳定的。
希望有帮助
fqzz
2023-04-27 11:32:31 +08:00
kernel log 在 /var/log/kern.log 里面可能会有有用的信息。

盲猜很大概率是 linux kennel 和 nvidia driver 的问题。
rwecho
2023-04-27 12:00:52 +08:00
@LJNlol #1 ssh 已经挂了。 我估计内核也挂了,我再去看看 journalctl
LJNlol
2023-04-27 12:12:11 +08:00
@rwecho 我记得有远程调试方法,可以看到 kernel panic 的那种。但是现在这个样子我感觉是硬件问题了...比如我的笔记本清灰之后没注意散热器安装压力,冷启动的时候 CPU 发热变形与主板接触不良,然后直接死机,也是没有任何 log 。后面松了下螺丝就好了😂
rwecho
2023-04-27 12:21:53 +08:00
@LJNlol #4 我也怀疑和硬件有关系, 这批卖了 4 个机器, 三个都出问题。
之前的批次都挺稳定的。
LJNlol
2023-04-27 12:24:32 +08:00
@rwecho 妈的这能忍,直接杀到经销商去🤣。走采购的东西直接售后罢
rwecho
2023-04-27 12:28:49 +08:00
@LJNlol 找不到原因。



这是刚才看的 kern.log 的日志, 也是在这个期间没有产生信息
rwecho
2023-04-27 12:31:46 +08:00
@LJNlol #6 在 jd 上面买的带 2060 显卡的 nuc

还有没有什么办法能看卡住的时候系统发生了什么事情 😡😡😡
duke807
2023-04-27 12:36:45 +08:00
alt+ctrl+F1~6 切换到终端模式
然后看 dmesg 打印

如果完全死掉,提前切终端模式,然后看有没有 kernel 死机打印

更进一步,可以配置电脑硬件串口输出内核打印
duke807
2023-04-27 12:37:46 +08:00
出硬件故障不能指望 log 文件,因为已经来不及保存了
LJNlol
2023-04-27 12:40:04 +08:00
@rwecho nuc ? CPU 是可以拆卸的吗?还是整一个都是一体的?那我更怀疑硬件故障了...
除此之外也真没啥办法了,到现在这个阶段真的很难去怀疑软件了,系统卡死的时候连 log 都记录不下来。除非整得像个搞嵌入式的一样:串口 /网口远程 Kernel DEBUG😂,如果都做到这种地步还是发现不了 Kernel Panic ,那 100%是硬件的锅了。
abbottcn
2023-04-27 13:00:00 +08:00
路过……
贴一个不太相关的我遇到的问题。

22.04 系统,
配置好的科学计算集群,
用户做了一次 apt upgrade ,
然后调度器挂了……

所有的信息都正常,就是 srun 不跑……

降级到 22.04 初始版本就工作了……

所有的东西,都是 apt 安装的……

虽然工作机器也用 Ubuntu ,现在不敢轻易 apt upgrade 操作了。
jzphx
2023-04-27 13:01:54 +08:00
有的主板必须接显示器,不然就会出现这种情况。我的就是这样,排查了很久,最后用 hdmi 欺骗器解决了
StillLearing
2023-04-27 13:26:07 +08:00
昨天刚遇到类似的情况,跑深度学习的时候突然就崩了。Ubuntu20.04 ,动鼠标键盘没反应(卡死状态),ssh 也上不去。昨天在 V 站查了下,先用 Memtest86+跑了下内存测试,可以 PASS 。有的朋友说可能是 gnome 的原因导致的,然后我就试了试关了 gnome 服务,目前还没卡死。我也贴个 log ,各位大佬帮我也看看吧。
顺便贴一下配置:
AMD R5 5500
3090TI
NV 驱动版本:525.105.17
```
kernel: [24043.430436] BUG: Bad page map in process python pte:800000034525b845 pmd:383c16067
kernel: [24043.430445] flags: 0x17ffffc0000008(dirty|node=0|zone=2|lastcpupid=0x1fffff)
kernel: [24043.430448] raw: 0017ffffc0000008 ffffe88f8e897308 ffffe88f8e897488 0000000000000000
kernel: [24043.430449] raw: 0000000000000001 0000000000000000 00000001ffffff7f 0000000000000000
kernel: [24043.430450] page dumped because: bad pte
kernel: [24043.430450] addr:00007efb06b64000 vm_flags:08200073 anon_vma:ffffa025a9899bc8 mapping:0000000000000000 index:7efb06b64
kernel: [24043.430452] file:(null) fault:0x0 mmap:0x0 readpage:0x0
kernel: [24043.430456] CPU: 5 PID: 48686 Comm: python Tainted: P B OE 5.15.0-69-generic #76~20.04.1-Ubuntu
...
...
...
python[48686]: segfault at ab ip 00000000004f1094 sp 00007ffe19640cf8 error 4 in python3.8[423000+1cc000]
```
shijingshijing
2023-04-27 13:31:39 +08:00
9 楼正解,这种多半是桌面环境挂了,系统可能没有崩,切命令行就行。一般更新系统后,因为 gnome 或其他库的原因容易出现,然后就是硬件驱动,但是硬件驱动一般是直接挂,切不了命令行。
mmdsun
2023-04-27 15:41:13 +08:00
windows 和 linux 都有魔法键,当卡住的时候,键按下后可以让打印错误信息.

linux 搜索:magical key
windows 搜索:Forcing crash from keyboard

配置下,卡住时候 按下看看
ccxxjjjjjj
2023-04-27 15:54:40 +08:00
可能是一个帮助不大的回复

2 年前装机的时候遇到过类似的情况:没有执行任何“重”操作,莫名其妙就会卡住,有时候鼠标移动一下就卡在那里了,卡住后只能强制重启。

当时候经销商给配的确实是国产内存条中性能较差的(已经忘记是哪家的国产内存条了),换了内存后,2 年内除了断电很少关机,到现在为止再也没有出现过卡住的情况。所以建议先换掉内存试试。
ccxxjjjjjj
2023-04-27 16:05:34 +08:00
说回来既然是采购的,完全可以走售后,而且你可以暗示是硬件问题。没必要折腾半天(我当初折腾了一周),后来粗暴的换了内存之后就解决了。

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/935847

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX