请教一下存储大佬, 这服务器的硬盘是不是很快要升天了? 有必要立刻迁移数据吗?

140 天前
 Int100

两块 NVME 固态组的 (soft) Raid-1, S.M.A.R.T.测试两块盘都没通过 (FAILED) :

- NVM subsystem reliability has been degraded

SMART/Health Information (NVMe Log 0x02)
Critical Warning:                   0x04
Temperature:                        34 Celsius
Available Spare:                    100%
Available Spare Threshold:          10%
Percentage Used:                    106%
Data Units Read:                    30,712,672,589 [15.7 PB]
Data Units Written:                 1,862,279,023 [953 TB]
Host Read Commands:                 76,147,225,142
Host Write Commands:                9,769,033,638
Controller Busy Time:               52,392,054,374
Power Cycles:                       11
Power On Hours:                     24,101
Unsafe Shutdowns:                   1
Media and Data Integrity Errors:    0
Error Information Log Entries:      144
Warning  Comp. Temperature Time:    0
Critical Comp. Temperature Time:    0
Temperature Sensor 1:               34 Celsius
Temperature Sensor 2:               36 Celsius
- NVM subsystem reliability has been degraded

SMART/Health Information (NVMe Log 0x02)
Critical Warning:                   0x04
Temperature:                        39 Celsius
Available Spare:                    100%
Available Spare Threshold:          10%
Percentage Used:                    163%
Data Units Read:                    47,306,232,682 [24.2 PB]
Data Units Written:                 3,009,805,511 [1.54 PB]
Host Read Commands:                 132,313,748,968
Host Write Commands:                41,306,780,960
Controller Busy Time:               141,500,864,939
Power Cycles:                       19
Power On Hours:                     32,831
Unsafe Shutdowns:                   6
Media and Data Integrity Errors:    2
Error Information Log Entries:      259
Warning  Comp. Temperature Time:    0
Critical Comp. Temperature Time:    0
Temperature Sensor 1:               39 Celsius
Temperature Sensor 2:               65 Celsius

有必要立刻迁移数据吗? 感谢🙏

2408 次点击
所在节点    硬件
12 条回复
kokutou
140 天前
固态不会立刻暴毙,但是这不是服务器吗。。。换硬盘不是供应商的事?
defunct9
140 天前
机械飞升在即,赶紧换吧
oldboy627
140 天前
我不是存储有关的人,但是我把第一块数据扔给了 AI ,它给出的结论是:Critical Warning 值为 0x04 ,表明硬盘处于危险状态。

我又去搜索了 NVME 文档验证了下有关于 Critical Warning 的内容,在 NVM-Express-1_4-2019.06.10-Ratified.pdf 中 122 页的 Critical Warning 的部分,给出了具体 bit 的定义。
Critical Warning 的值 0x04 转换为 2 进制的话,是 00000100 ,其第二位是 1 ,根据文档中的定义,如果设置为 1 ,NVM 子系统的可靠性已经降级(If set to ‘1’, then the NVM subsystem reliability has been degraded due to significant media related errors or any internal error that degrades NVM subsystem reliability)。

Percentage Used: 生产厂商对硬盘预计的寿命时间,这个值可以大于 100%,也不一定表示一定发生故障,当这个值大于 254 的时候会使用 255 来表示。 这个值更新时间是每一小时一次。

国外也有人在 reddit 上问过类似的情况。

我的个人建议是,如果数据重要且是公司的存储,换新硬盘更保险,不要自己承担风险。

相关链接
https://nvmexpress.org/wp-content/uploads/NVM-Express-1_4-2019.06.10-Ratified.pdf
https://www.reddit.com/r/unRAID/comments/vlmody/nvme_ssd_failed_in_smart_test_but_is_still_working/
wunonglin
140 天前
现在存储便宜得很,该换换
xclimbing
140 天前
存储冗余还完全没有使用,按固态的原理,没啥问题,不过数据重要,不差钱就换了吧。换下来可以继续用。
sugubei
140 天前
@oldboy627 以后尽量少回复这种,有人看不惯会 @管理员 删你账号,之前就有人使用 ai 回复被删账号了。
jardel
140 天前
@sugubei 是使用 AI 回复才会,这种结合 AI 判断的不会
HojiOShi
140 天前
使用了超过 100%的寿命和 SMART 自检不过都不去换吗,你还真坐的住。

@sugubei #6 一大段全是 AI 的,和只有一句话是 AI 的,还是有区别的。
julyclyde
140 天前
想都别想,赶紧换

SMART 报 OK 不一定真的 OK ,但是报错那一定是有错
Felixchen1062
140 天前
是自己的就立刻备份换掉, 是公司的就打个报告, 给出评估结果, 让别人做决定, 记得工作留痕
WuSiYu
140 天前
赶紧备份吧,写入量巨大,寿命已经耗尽了,Media and Data Integrity Errors 和 Error Information Log Entries 有值了,鉴定为寄,能活到现在也不容易
chnsatan
137 天前
数据没那么重要的话,心大点,无所谓。
我有块 14T 的氦气盘,报错一年了,里面都是些电影电视剧,即便炸了也无所谓

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/1127153

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX