小机器跑 linux 莫名其妙地死机, 一脸迷茫

2016-10-31 19:16:38 +08:00
 Osk

https://www.v2ex.com/t/312648 个帖子, 买了占美 5005u 的小机器,跑 Arch,很好,发热也不高,但最近发现要莫名其妙地死机,死得很奇葩。

1,把网线拔给其它计算机用了一段时间,再插回去,网卡灯不亮,死了,Num Lock 都切换不了。

2,没拨网线,关了路由器,早上出门,晚上回来,死了,

3,早上拔了网线,晚上回家,死了

4,同第二次

共同情况: 断开网络,网卡灯不亮,死机后机身微热

故障不易复现...断网一会儿不会遇到这个问题

其它情况: 有网络的情况下,最长连续 5 天不死机,有网络有负载时,从未死机。机器不存在过热问题。

死机后,没有任何日志什么的,故障又不易复现,简直头大。。。

不知道大家有什么找 bug 的建议,谢谢了!

7268 次点击
所在节点    Linux
27 条回复
ianzhou233
2016-10-31 19:28:04 +08:00
会是固件问题么?或者有灰什么的。擦擦内存和固态的金手指试试
ianzhou233
2016-10-31 19:28:59 +08:00
固件→硬件
Osk
2016-10-31 19:34:29 +08:00
@ianzhou233 全新的,我也从不用手接触金手指
Osk
2016-10-31 19:39:21 +08:00
r8169: can't disable ASPM; OS doesn't have ASPM control

dmesg 中有这个输出,不知道是不是 ASPM 的锅
longear
2016-10-31 19:55:56 +08:00
赶快申请换机,就说不定期死机,要求必须更换,自己记住主板的特征,可以用刀在主板的侧边做个记号(不是板面上),只有自己记得,好用来区分回来的是新主板还原来的。
这些无风扇主机的主板品控就那么回事,虽然用料还可以,那也没用。
reus
2016-10-31 20:36:14 +08:00
硬件问题。你看那些跑 linux 的路由,都没这样的。肯定是硬件问题。
xdeng
2016-10-31 20:38:55 +08:00
驱动没装好吧
shijingshijing
2016-10-31 22:44:08 +08:00
无风扇还是不现实的,稍微有点空气对流温度就会下降很多,最好的选择是静音风扇,然后定期清灰。
klesh
2016-10-31 22:54:28 +08:00
硬件问题+1
alcarl
2016-11-01 00:04:09 +08:00
有网时不死机?
1 、可以考虑换个其他 linux 或者 windows 观测一下。、
2 、另外可以尝试 bios 禁用网卡,看看死不死。
3 、也有可能是待机醒不过来了,可以在 bios 关掉一些电源管理选项试一试。
qceytzn
2016-11-01 01:26:22 +08:00
@shijingshijing 我家的占美买回来一年了,用到现在好好的,包括夏天里摸着有点烫也没事
zzutmebwd
2016-11-01 02:28:07 +08:00
@shijingshijing 你真的用过无风扇主机吗?无意引战,只是觉得没有用过就没有发言权。我的笔记本用的 core m5 , nas 用的 N3150 ,均无风扇,从没有出过问题。
floopy
2016-11-01 08:04:12 +08:00
@Osk 我也买的占美的小主机,遇到过同样的问题。你可以尝试升级下内核。
floopy
2016-11-01 08:05:54 +08:00
@Osk 怀疑是网卡驱动问题,最好看下
floopy
2016-11-01 08:07:14 +08:00
日志
Osk
2016-11-01 09:29:48 +08:00
@floopy 日志回家再贴,现在发现是拔网线后就死机,晚上闲置一晚,早上拔网线后,系统日志就断了,没有 Link down 这条记录。
Arch 内核目前是 4.8 。

@alcarl 没有设置待机, bios 禁不了网卡,正在 Windows 10 测试看看。
mko0okmko0
2016-11-01 09:31:32 +08:00
重编内核,求快速可直接复制这个 linux 救援 CD 内的 kernel.config 去编译,
www.system-rescue-cd.org/SystemRescueCd_Homepage
也可以复制这个设定后,再次编辑参数,把核心侦错的项目都打勾,尤其是讯息显示的部分.
换完核心后,你再次死机就有很大的机会看到问题点的讯息.

有时候不是温度问题,而是硬体,韧体,有根本上的瑕疵,而你触发了.
shijingshijing
2016-11-01 09:40:07 +08:00
@zzutmebwd 家里两三个 ATOM , hp 的 T550 改造了一个,自己买配件组装了一个,都热得烫手。硬盘温度超过 60 度寿命就会大幅下降,而且这玩意儿毕竟性能有限,多跑几个爬虫就不行了。帮别人组装过真正的 0 分贝主机,用的海韵 X400FL 电源,无风扇设计, CPU 散热器用的 Zalman FX100 ,上的 i7 2600k ,根本压不住,游戏半个小时 CPU 温度就到了 85 的样子。加了个 500 RPM 的 12 寸风扇侧吹,温度马上降到 58 度。目前来看,完全无风扇只能做到可用,温度太高还是有很大的危害的,所以我说稍微加上一个低转速风扇让空气流动一下就很不一样。

我现在自己搭了一个服务器,用的联想 T168 老箱子,低功耗 Xeon E3-1260L , 1 个 SSD , 1 个 2T 硬盘,挂爬虫挂 NAS ,待机在 30w 的样子,全速在 74w 的样子, CPU 散热器用的是热管 + 低速大风扇,前面板挂了个 12 寸风扇进风,刚好对准硬盘吹。整机噪音非常小,几乎听不见。

其实功耗和温度有两个隐形的死角我们往往不会注意,第一是电源一定要用转换率高的 80plus 电源,特别是在全速运行的时候, 80plus platinum 电源能达到 90%+的电能转换率,一年能节省不少电费;第二就是 intel 的 PCH 芯片组其实温度也不低,我试过了,从 H55 开始一直到现在的 Z170 ,没有不烫手的,我硬盘少,硬盘间缝隙大,前面板的大风扇吹的风能正对着 PCH 上面的散热片吹,即使是这样,我把原来的小散热片也改成了大铝片。

终极的解决方案,我认为还是风道+低转速风扇+大散热片,噪音,灰尘,散热都能得到有效解决。
Osk
2016-11-01 13:37:16 +08:00
@mko0okmko0 谢谢,我也准备开启 kdump 看看,但是死机时显示器关闭
Osk
2016-11-01 13:41:14 +08:00
@mko0okmko0 死机时显示器关闭了,黑屏状态怎么办?

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/316876

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX