有没有 PVE 装黑裙的大佬,我的黑裙最近时间总是不定期掉线,头疼

2024-08-28 17:18:47 +08:00
 cookLv

表现: 可能几天就一次,必须要重启,重启后查看日志,里面有 link down 的记录

1 、目前机器仍然在掉线状态,由于 pve 中其他虚拟机,除了 windows 外,都依赖于群晖的 smb ,所以群晖掉线后,其他服务基本都不可用了

2 、发现群晖掉线后,访问 pve 后台是正常的,但是过了几个小时,pve 后台也访问不了了,暂时没有头绪。pve 本身不依赖群晖。ssh 可以访问,管理端访问不了了。

3 、目前 windows 还是正常的状态,由于这次掉线刚好群晖在扩容,所以还没敢重启,黑盒等待中(无法得知扩容状态,但是掉线之前看到预计 1 天多一点,所以昨天中午掉线后,就没重启,准备今天晚上重启下。)

猜测: 是网络掉线了,原因未知。

  1. 之前也有好几次掉线,所以应该不是因为扩容导致的问题。

  2. pve 中的其他虚拟机( windows+ubuntu+ct 容器*2 )都是正常的,没有掉线问题,排除硬件网口的问题

    应该是 pve 主机和群晖的某些配置兼容性,或者是群晖本身的问题。

  3. 目前是 44t+14t 组的群晖的 shr1 ,容量=44t ,剩余空间是 700G ,前段时间出现问题的时候,怀疑是容量过低导致的,所以清理出来了一些空间,目前是 700G 。应该可以排除容量问题。

  4. 网卡选的是 E1000 ,应该不是兼容性问题?这个不确定。

2553 次点击
所在节点    NAS
21 条回复
cookLv
2024-08-28 17:21:26 +08:00
好像不能编辑了,上面的星号被转义了,容量是 4*4T+14T
zhouhuade
2024-08-28 17:26:34 +08:00
看下 pve 的日志呀,
感觉你应该有用 sata 扩展卡,看看扩展卡是不是有问题
cookLv
2024-08-28 17:30:26 +08:00
@zhouhuade 是的大佬,确实用了 sata 扩展卡,主板只有 6 个 sata 口,所以买了一个 4 口的扩展,怎么知道是不是扩展卡的问题呢?日志我等下回家找找怎么看。
cookLv
2024-08-28 17:33:16 +08:00

这是我用的扩展卡,主板是华硕的 tuf b360m -plus gaming
cookLv
2024-08-28 17:36:11 +08:00
补充信息:pve 主机 ssh 也无法登录了,但是还可以 ping 通,windows 虚拟机暂时没问题

ps:为什么帖子不能追加内容了呢,也不能修改。
JensenQian
2024-08-28 17:41:38 +08:00
我之前也是 pve 装的黑裙,也是经常掉线
我后面直接物理机装了 unraid ,现在一年多了都没怎么掉过线
bytesfold
2024-08-28 17:45:29 +08:00
PVE 主机网卡的问题好像,需要关闭网卡的硬件加速啥的,改成 cpu 解码;
不对在改回来
phenixc
2024-08-28 17:45:35 +08:00
pve 的直通设备出现问题就会有这现象,没有找到好的解决办法
laminux29
2024-08-28 17:53:46 +08:00
经常掉线要注意一下温度与电源。

1.大家应该都知道水冷,可是几乎没人告诉你:主板、存储介质、网卡、光模块这类都需要控温的。
曾经有一块主板不定期蓝屏,搞了个 12cm 风扇对着主板吹,就好了。而且主板温度很难监控到。

2.换个电源试试。以前我在京东自营,买了某品牌电源,买了几个,都没撑过 2 年。京东给我换,我不要。直接去拼多多买了爆火的尘雨电源。

3.内存条跑个 Memtest86+,至少 1 个 pass

4.重装 + 双烤 30 分钟试试。
cookLv
2024-08-28 18:05:45 +08:00
@JensenQian 哎,搭建了好多服务,不到最后一步不想重新折腾了

@bytesfold 谢谢回复,这个之前好像看到过文章,改动过后面还没观测,物理网口掉线了,排查过程中改回去了,我今天重启恢复了再试试看。

@phenixc 难受了

@laminux29 感谢回复,不过由于其他的虚拟机都没什么问题,暂时不往硬件排查,而且温度其实挺正常的,我有经常看
X2031
2024-08-29 11:52:43 +08:00
PVE 黑裙 稳定运行 300 多天了 啥问题没有
shouh
2024-08-29 12:13:17 +08:00
我这边 PVE 虚拟机上面的群晖老是不定时重启,一直找不到原因,请大佬指导下
系统
System booted up from an improper shutdown

System started to boot up.
cookLv
2024-08-29 13:24:33 +08:00
@shouh 异常关机,找找 pve 的日志看看有没有记录,我没遇到过重启,我的都是掉线
@X2031 羡慕
yanlaury
2024-08-29 16:06:23 +08:00
https://kiritow.com/proxmox-eth-fix/
试试这个吧,我之前 pve 失联用这个解决的
YASUAKI
2024-08-29 16:30:32 +08:00
@shouh 尝试更换 pve 内核,我之前更新了内核之后就大概每隔 15min 黑裙就自动重启,也提示这个日志,换回原来的内核就好了
qpwo005451mark2
2024-08-29 17:02:33 +08:00
t/944268
我之前遇到这个表现和你这个有点像,当时我是把 PVE 宿主系统做了 ZFS raid 1 ,推测是硬件与 ZFS 兼容性问题,文件系统使用 EXT4 之后就没有这个问题了,有键鼠显示器的话接上 PVE 主机,终端里看下有没有什么异常,我当时就是 load 上百,卡 IO waiting ,PVE 的 pveproxy 遇到这种情况是第一个崩的,sshd 也时间久了也会崩
OliviaV
2024-08-29 17:43:51 +08:00
我这也几百天在线了 用的是 virtio 版本是 7.4-17
zhouhuade
2024-08-29 20:05:37 +08:00
我之前用了 sata 扩展卡,过热到一定程度就会导致失联
我建议优化散热,给扩展卡加散热片
我当时查到是扩展卡的问题是在 pve 的日志里看到很多 sata 扩展卡的 pci 设备报错
cookLv
2024-08-30 11:56:57 +08:00
更新:
今天又掉线了,不过查看群晖的日志发现在掉线之前,pve 大量访问群晖的共享盘,有个共享盘我挂到 pve 当备份存储了,之前系统盘容量不够用,不过目前扩容了,我摘掉再观测下看看。
shouh
2024-08-31 00:06:55 +08:00
@YASUAKI 好的,谢谢,再测试看看

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/1068522

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX