机器是自己组的 ALL IN BOOM ,平台是 I5 12400+B660 ,目前在家里,平常在同城异地上班
PVE 系统采用 ZFS mirror 安装在两块致钛的 SATA 固态上(安装于主板自带的 SATA 控制器),大部分 VM 的系统盘安装在 SATA 上,NAS 系统选用的是 unraid ,阵列卡和 2 块 NVME 固态直通给了 unraid 。
PVE 的 VM 和 LXC 容器提供服务,unraid ( unraid 上自己也跑了一些 docker )通过 NFS/SMB 方式对一些服务提供存储
其中一台 VM 运行的是 windows11 ,核显 SR-IOV 直通给 win11 虚拟机上班的时候通过远程串流玩玩舰娘+安卓模拟器,24h 运行,目前问题是最近 PVE 的 ZFS 文件系统有概率崩溃(多次和 win11 这台虚拟机里的读写操作有关,比如启动 win11 里的安卓模拟器,但是故障没法稳定复现),具体情况是 CPU 占用率低,但是 DISK IO 、IO wait 、服务器负载巨高,所有 VM 和 LXC 容器只要是在 zpool 上的基本失去响应。看起来就像 SATA 控制器被占满了一样,iosata 结果也是这样,但是 htop/iotop 在后台看不到任何读高写的进程,并且情况会逐渐恶化,最后就是 PVE 控制台也崩溃,SSH 可以进去但是运行 htop 后也不会有响应,严重到最后甚至 SSH 也无法远程登录,一般我在 ssh 还能登录的时候就选择把 unraid 数据保存以后 reboot 之后服务会恢复正常。
zpool 看起来也没问题,两块致钛的 SATA 固态 smart 也没问题,这属于 PVE ZFS 的 BUG 吗?
因为目前人在异地,周末才能回去,基本属于 all in boom 的状态了,但是 unraid 因为是 U 盘直通的系统,PVE 控制台崩溃了也不受影响,还能正常运行,今天又复现了这个问题,目前在 PVE 控制台崩溃前把 win11 VM 磁盘转移到了 unraid 直通的两块 NVME 上,目前和 unraid 一样可以正常运行。
https://upload.cc/i1/2023/05/30/vVfmaI.png https://upload.cc/i1/2023/05/30/sfr6Bn.png https://upload.cc/i1/2023/05/30/wF95ZD.png https://upload.cc/i1/2023/05/30/1ViGXY.png https://upload.cc/i1/2023/05/30/s2KlHD.png
这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。
https://www.v2ex.com/t/944268
V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。
V2EX is a community of developers, designers and creative people.