NVLink 对显卡集群的影响有多大?

208 天前
 zhuwd
组了 8 台 NVIDIA A100-PCIE-40GB ,用 Ollama 跑了 Deepseek 的 70B 版本,理论上性能是足够的,但是思考时间特别长,显存的占用率也不是很高,功率甚至连五分之一都没达到,不知道问题出在什么地方
4190 次点击
所在节点    NVIDIA
19 条回复
neteroster
208 天前
1. 都用这些设备了不用 sglang 跑去用 ollama 这种干啥
2. 没多大并发占用当然不会高,bs=1 decode 是显存带宽瓶颈。
zhuwd
208 天前
@neteroster 感谢!!小白刚上手,搜了下都是用 ollama 在部署,这就去看一下 sglang
hertzry
208 天前
NVLink 需要专门的硬件交换机,你这 PCIe 版用不了。
TimeNewRome
208 天前
deepseek 对 IO 要求很高。楼主的 token 输出慢,多半是因为 IO 传输存在瓶颈。

所以最好的解决办法,应该是换成 NVLINK 而不是继续用 PCIE 。

PCIE 通道数有上限,会严重拖慢 IO 速度。
liuyuncai
208 天前
被多机互联的通信带宽限制了,而且你这个是 PCIE 的,GPU 通信也被限制了
cpstar
208 天前
谁给的勇气判定“理论上性能是足够的”?
这 8 台,还不知道单台多少块 A100 ,就算是 8 块,总共 64 块。那么首先单台的八卡联合工作问题不大,总共可用显存 320G ,可以上 q8 甚至 fp16 量化,但是 671b 够不到。
然后就是 8 台机器协同,基本上 PCIE 的不要想了。如果是 8 卡的情况,还需要 8 条 PCIE 插槽给每个显卡配套一张 IB 卡,然后 IB 组网还需要至少 8 台交换机(也许更多,具体方案没有细算过)。反正是 PCIE 版的基本就放弃机间组网,玩一玩本机多卡协同就到头了。然后如果需要机器协同,请去查找 SXM 版的 A100 。
zhuwd
208 天前
@cpstar 目前 8 张卡在一台机器上,总显存 320G ,部署 70B 版本的应该够了吧,只不过 8 张卡是 PCIe 版的
scys
208 天前
看运行环境的占用情况和参考 Ollama 的 issue 讨论 8xA100 相关就明白。
apuslilie
208 天前
好奇去了解了一下 NVlink ,感觉机器学习对 GPU 之间通信的要求还挺高的(不然 PCIe 应该就够了)。

个人理解这方面是不是在算法上还有继续挖掘的空间?如果对通信带宽的要求这么高,通信本身的开销就不小吧。

一般 CPU 为主的计算,通信的开销有,但是感觉要小得多,节点不多的时候用普通网线连接都可以。
iorilu
208 天前
70b? 为什么要这么多卡
wuyadaxian
208 天前
https://post.smzdm.com/p/a96e6rg5/
早上刚看了这个。
reeco
208 天前
生产环境显存足够还用 ollama 这种套壳干嘛,暴殄天物。70B 用 Triton + TensorRT-LLM 理论性能是最好的
secondwtq
208 天前
你把 PCIe P2P 搞起来就可以,应该是不需要 NVLink 的。
secondwtq
208 天前
70B 的话试试用四块跑,卡越多通信开销越大。
kernelpanic
208 天前
deepseek 只有一个 671B 版本
eternitym31
208 天前
我试过 pcie 和 nvlink 的 8 卡 a100 ,性能差的很少,10%都不到。另外如果是 fp16 权重我感觉 40gb x 8 是不够部署 70B 模型的,我怀疑可能发生了显存和内存的交换,出现了 IO 瓶颈。
carmark
208 天前
8 台还是 8 张,节点内可以走 nvlink 或者 pcie ,节点间如果要低延时可以走 IB 或者 RoCE 。一般而言推理并不需要高带宽,但是需要低延迟的产品。所以如果是 8 台机器最好上 IB 或者 RoCE ,这个比以太网好太多,如果是单机八卡那么其实上 nvlink 意义不大,重点还是要用正经的推理引擎,ollama 的目标是为了能兼容多种硬件。
lkc3093
207 天前
sxm 版本的才能用 nvlink
mengban
206 天前
70B 是指蒸馏版本的 Qwen 吧? 严格来说 这个和 dsk 相差甚远 真想部署所谓的满血 dsk 起步配置是 16 张 80G 的卡 你这配置估计体验不到 dsk 的能力

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/1111600

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX