开机之后掉显卡如何排查?

2024 年 12 月 24 日
 zuotun
刚入手的 R730 + Tesla ,刚开机时显卡正常,但是过了几个小时 nvidia-smi 就显示找不到设备,并且在 lspci 中也是能看到显卡存在的。
显卡外观看上去正常没有焊油,电源也是 750W 的,诸位有什么头猪吗?
1647 次点击
所在节点    问与答
11 条回复
LeslieLee
2024 年 12 月 24 日
设备管理器看一下显卡状态,更换显卡驱动试一下,BIOS 设置超频也有关系
Atukey
2024 年 12 月 24 日
显存可能虚焊了,跟你同样的问题,3070 改了 16G 显存后就间歇性黑屏,直到有一次黑屏重启后花屏了,拿去维修才知道是显存虚焊了。
v1
2024 年 12 月 24 日
lspci 能看到说明显卡是没问题的,问题应该是 nvidia-smi
v1
2024 年 12 月 24 日
9I1300x6w4IO3M2l
2024 年 12 月 24 日
之前我们这有台双 4090 的设备,一直掉显卡,后来换了电源线才解决,说是功率的问题。头绪打成头猪是故意的吗。
zuotun
2024 年 12 月 24 日
@baibaibai0126 #5 总不能是手写输入的吧。但我只有一张卡还没开始干活呢,待机功率最高也就三十多瓦不至于因为这个掉吧。
Damn
2024 年 12 月 24 日
@baibaibai0126 一看就是五笔了吧。。
yy306525121
2024 年 12 月 25 日
有可能是电源电压不够
zuotun
2024 年 12 月 26 日
@lixiaobai913
@Atukey
@kk2syc
@yy306525121
目前算是解决了,主要是两个问题,一是 nvidia_drm 没有加载,二是风扇。在官方论坛找到了几乎一样的问题 https://forums.developer.nvidia.com/t/need-help-with-p100-installation-r730-dell/262247
这个问题实在是太离谱了,我自己想怎么都不会往风扇方面想啊。drm 是官方驱动 run 包的锅,风扇是掉卡的直接原因。
yy306525121
2024 年 12 月 27 日
@zuotun 呃,这谁能想得到啊哈哈哈哈哈
v1
2024 年 12 月 27 日
@zuotun 感谢,长知识了

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/1099978

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX