公司有一批服务器装了 AMD 的 EPYC 7313 或者 EPYC 7513,但是大部分服务器跑我们的业务时频率就会上不去

2022-11-07 14:13:47 +08:00
 gouchaoer2
只有一台服务器是正常的(全程能达到 3600MHz 的 boost 频率),其它大部分服务器跑任务。这个任务就是 gpu 解压 h264 视频,然后传给 cpu ,每秒大概 3.6G/s 的速度。这个时候 cpupower monitor 查看频率在 1500MHz 到 2500MHz 左右,到不了 3000MHz 的满频率(更不要说 3600MHz 的 boost 频率了)。当这个任务停了,再用 stress 指令就能压满 cpu 了。

已经排除的原因:
1 、已经 NUMA 、cTDP 、boost 、BIOS 的节能
2 、AVX2 指令已经测试过,能压满频率,并没有降低频率
3 、接服务器 BMC 带外看 cpu 的温度是正常的,但是电压我看不懂,是不是电压原因,如下:

2160 次点击
所在节点    程序员
12 条回复
gouchaoer2
2022-11-07 14:27:38 +08:00
其实这个问题还是之前的那个问题: https://v2ex.com/t/884141#reply28
我以为解决了,其实根本没有解决
echo1937
2022-11-07 14:34:14 +08:00
还是 ffmpeg 的问题?
litguy
2022-11-07 15:09:27 +08:00
@gouchaoer2 我看到一个回答,你试试和你们系统匹配不 ?
litguy
2022-11-07 15:09:35 +08:00
BIOS/Platform Configuration
-> Power and Performance Options
-> Power Regulator
[*] OS Control Mode
litguy
2022-11-07 15:14:12 +08:00
还可以试试这个命令 cpupower frequency-set -g performance
ZRS
2022-11-07 15:15:37 +08:00
看看 TDP 是不是跑满了,不是所有的任务负载都反映在主频上
gouchaoer2
2022-11-07 18:12:21 +08:00
@ZRS 怎么看 TDP 跑满没有呢?
gouchaoer2
2022-11-07 18:12:59 +08:00
cpupower -g performance 这个已经试过了,还有 Power Regulator 这个 BIOS 里没有
secondwtq
2022-11-07 21:27:22 +08:00
turbostat 试下,我这 Intel 是可以显示功耗的
(注意对于 Intel CPU ,这里显示的应该是 RAPL 提供的一个估计值,是通过一个数学模型算出来的,并不是直接测量功耗)
gouchaoer2
2022-11-08 09:46:53 +08:00
@secondwtq
@ZRS
@litguy
这次真的结帖定了,定位到问题了,就是 cTDP 不够,虽然 AMD 官方标称 cTDP 是 180W ,但是可能是我们采购的主板供电有问题,必须把 cTDP 调大几十 W 才行
haikouwang
2022-11-09 11:04:05 +08:00
amd 的 u 出名的大家找 bug
gouchaoer2
2022-11-09 22:09:59 +08:00
@haikouwang 这不是 AMD 的原因,是机箱主板的原因,我们这批服务器主板有某知名大厂,有某小厂,我们的采购干了 3 件蠢事:1 、把 8 条小容量内存换成 4 跟大容量内存,导致只能用 4 通道速度减半 2 、把有 2 个 NVDEC 的 quadro 显卡换成了“更强劲”某显卡(结果只有 1 个 NVDEC )导致解码性能不够,结果需要 2 张 3 、就是搬来服务器主板大厂的没问题,结果这个小厂的除了问题,我 debug 了好久好久才找到原因

不过经过这件事,我对服务器性能调优也有了一个更高的认识吧

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/893313

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX