nas 持续写入数据后掉盘的问题,有人遇到过吗

2022-04-18 15:05:13 +08:00
 Bootis

物理机主板为 j5040-itx ,接入 4 块 hdd ,电源为航嘉 400w ;系统安装 esxi ,一块 hdd esxi 使用安装虚拟机,剩下三块直通至 nas 。 nas 系统使用 omv ,硬盘为两块 wd hc320 8T ,一块希捷酷狼 4T ,SMART 均无异常,温度保持在 50 度以下。

无论是用 transmission 挂 PT 下载资源或是 smb 连接写入数据,均会在持续写入 15-60 分钟内掉盘,换过数根 sata 数据线问题仍得不到解决,google 也毫无头绪,迫于无奈发帖咨询。 系统日志如图: https://imgur.com/o4v2pq7

2509 次点击
所在节点    NAS
13 条回复
documentzhangx66
2022-04-18 15:54:38 +08:00
你有没有单独测试过这块硬盘的性能?包括:
1.连续读 Seq Read
2.连续写 Seq Write
3.4k 读 4k Read
4.4k 写 4k Write
vibbow
2022-04-18 15:57:11 +08:00
要不然是主板的锅,要不然是电源的锅...
liuliangyz
2022-04-18 16:00:20 +08:00
你先看你 nas 的电源,是不是高负载后电源带不动了?
luoshengdu
2022-04-18 16:42:34 +08:00
要排除是否内核兼容性故障。 不存在硬件故障(前提你的 hc320 和酷狼 4t 都是自用下来,或者全新的吧?)
这堆硬件在启动完毕后,在全速读写操作下,8T 单硬盘耗电约为 12v 2.6A 4t 耗电 12v2A 。100W 功耗都不到,除非你买的假的要爆炸的电源,可以排除电源故障

排查方法,直通 3 个盘上有数据,可以收缩一下分区,空一点空间出来。装个 Windows ,装个 qbittorrent ,三个盘都挂下载资源跑一下即可知道是否硬件问题。如果没有重要数据,换掉 omv 装别的系统对比即可。


近年同款故障报告
https://bugs.launchpad.net/ubuntu/+source/linux/+bug/1894778
opengps
2022-04-19 12:26:47 +08:00
之前有网友高功率掉显卡是电源问题,不知道你这硬盘问题是不是类似的电源因素
secondwtq
2022-04-19 13:05:24 +08:00
遇到过,拆拆装装莫名其妙就好了。猜测可能是接触不良或者 CPU 散热问题。
byte10
2022-04-27 11:54:37 +08:00
@luoshengdu 请教下,这个硬盘要 12V 2A 电流吗,我看一遍写着 12v 0.75A 5v 0.7A ,硬盘全速的时候要这么大功率吗。
tnesa
2022-04-27 11:56:36 +08:00
NAS 硬盘相关的很多问题都是电源或者背板导致的····可以从这方面找找原因
luoshengdu
2022-04-27 12:17:41 +08:00
@byte10 你环境中使用的硬盘启动功耗如下。 在稳定运转读写的功耗约 7-10W 这样
4tb 酷狼数据来源: https://www.seagate.com/www-content/product-content/ironwolf/en-us/docs/100807039h.pdf
见:2.6.1 章节,table5 是 4tb 的典型功耗,因其不是 7200 转,功耗相对低,spinup 既主轴启动功耗 12 伏特 1.8 安培,此参数特指你开机硬盘启动时的功耗

西数 8tb 320 数据来源: https://documents.westerndigital.com/content/dam/doc-library/en_us/assets/public/western-digital/product/data-center-drives/ultrastar-dc-hc300-series/product-manual-ultrastar-dc-hc320-sas-oem-spec.pdf
见:6.3.2.1 章节:start up peak 12V 2.08A 的功耗
flynaj
2022-05-17 22:04:25 +08:00
看一下是不是叠瓦盘。典型的叠瓦盘症状。
Bootis
2022-10-27 11:46:59 +08:00
@documentzhangx66 @vibbow @liuliangyz @luoshengdu @opengps @secondwtq 问题已经解决,回复一下方便有相同问题的朋友搜索。
经测试掉盘与系统无关,esxi 、pve 设置 pcie 直通,虚拟机 win 、linux 均会在写入 10G 左右数据时掉盘死机,推测为硬件问题,在 google 搜索也有人有相同的问题。
现在改用 pve ,lxc 安装 openwrt 和 omv ,omv 通过 lxc 直通硬盘,持续读写数十 Tb 数据后仍然正常
Dazuer
2022-12-14 11:41:38 +08:00
@Bootis 楼主你好,我的情况和你类似,通过 Google 搜索找到这里。不过我是物理黑裙 7.1 系统,有一块西数红盘会在频繁读写后出现掉盘的情况,导致群晖的系统直接挂掉,无法打开 web ,无法 ssh ,只能强制关机再重启。开机后,群晖会提示掉盘的存储池已损毁,所在硬盘也变为只读状态,但是实际上是可以直接改为可读写的,并且慢扫 smart 一切正常,所以硬盘是没问题的。按照你的推断,“经测试掉盘与系统无关,……推测为硬件问题”,但是你后面又说“改用 PVE ,……持续读写数十 Tb 数据后仍然正常",所以到底是系统问题还是硬件问题呀。。。烦请看到之后抽空回复一下,谢谢!
Bootis
2022-12-19 09:16:54 +08:00
@Dazuer 是硬件问题,j5040 虚拟机 pcie 直通硬盘不管什么系统都会掉盘,我现在是 pve lxc 安装 omv ,然后挂载硬盘,不通过 pcie 做直通就不会掉盘了

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/847678

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX