请教一下,这个问题应该怎么排查?

2023-04-26 16:21:40 +08:00
 BBrother

自己在家里的一台主机上部署了一台 Ubuntu Server 22.04 ,上面部署了一些服务,已正常运行了大半年,除了中间有一次需要手动运行 fsck 修复文件系统。

从 5 天前开始,大概每隔几个小时到十几个小时不等,机器上的服务就会挂掉,不是一般的挂掉,是所有的服务全挂了包括 nginx 托管的静态页面也无法访问,内网能 ping 通,ssh 能连上但无法进行操作,任何输入都会得到以下错误:

-zsh:2: url-quote-magic: function definition file not found

ssh 连接也会有神奇提示:

mkdir: cannot create directory ‘/home/long/.cache/oh-my-zsh’: Read-only file system
rm: cannot remove '/home/long/.zcompdump-babbage-5.8.1': Read-only file system
zsh: locking failed for /home/long/.zsh_history: read-only file system: reading anyway

然后在一些还能报点错的服务里会看到这样的错误:

OSError: [Errno 5] Input/output error

出现这个问题之后,甚至显示器都不能正常亮!

仿佛就是因为一些神奇的问题,整个文件系统就突然访问不了了,重启之后就正常能用。

设置每次开机强制执行 fsck 修复也无效。

请问这个是什么问题?是硬盘坏了吗?

726 次点击
所在节点    问与答
4 条回复
iyiluo
2023-04-26 16:32:31 +08:00
很大概率是硬盘挂了,处于崩溃边缘。可以把硬盘取出备份,然后检查一下坏道
Aloento
2023-04-26 16:38:00 +08:00
可以看一下硬盘健康度,还是提前备份比较稳妥
BBrother
2023-04-26 16:48:48 +08:00
@iyiluo #1
@Aloento #2
用 smartctl 看了下,看起来没有问题,也不知道有没有别的工具可以测 ssd 的问题的,数据已经备份了。

主要是想定位到底是哪的问题,可不可以修复,万一换块盘问题没解决就很亏,而且我这块盘虽然是块国产盘,但是它是去年十一买的,它还敢质保 3 年,不至于半年就坏了吧
Aloento
2023-04-26 18:21:10 +08:00
你可以进一个 PE 系统扫一下盘,看看有多少红的
@BBrother

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/935674

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX