8 路 L40 部署 R1-671B 上限是多少呢

194 天前
 jinja27

各位大佬,最近尝试部署 R1-671B 遇到了不少问题,希望能有大牛来帮忙解答: 基本情况:2 块 Intel(R) Xeon(R) Gold 5318Y CPU @ 2.10GHz+8 路 L40+500G 内存 部署 DeepSeek-R1-671B-Q4_K ,约 370G

由于模型文件无法完整加载到 8 张显存上(只能加载约 40 层)

最终结果感觉不理想:

8 张显卡显存近乎加载完全,但是 GPU 利用率仅 3%左右 llama_perf_sampler_print: sampling time = 166.42 ms / 1222 runs ( 0.14 ms per token, 7342.91 tokens per second)

llama_perf_context_print: load time = 74364.88 ms

llama_perf_context_print: prompt eval time = 20711.60 ms / 54 tokens ( 383.55 ms per token, 2.61 tokens per second)

llama_perf_context_print: eval time = 635627.49 ms / 3816 runs ( 166.57 ms per token, 6.00 tokens per second)

现在我的问题是: 1.是否因为显存瓶颈导致的 CPU+GPU 混合推理性能低? 8 路显卡在我这个场景里是否存在严重的显卡资源浪费?在不改变硬件的前提下是否有优化空间?如何优化? 2.如果此场景并发的话大概能有多少并发量? 3.我使用的是 llama.cpp ,使用其他推理框架,如 kt ,能有更好的效果吗? 4.如果 GPU 能完整加载,性能提升大概多少? 5.如果更新硬件如何更新? CPU 是否是此场景的瓶颈? 6.并发量主要取决于什么技术指标呢?

2342 次点击
所在节点    Local LLM
10 条回复
guoyijun163
194 天前
那肯定得用 ktransformers ,传统的开源推理框架基本都没考虑过 MoE
kk2syc
194 天前
llama 要给定参数--n-gpu-layers 对应层数分散计算压力
yukino
193 天前
别用 llama.cpp ,不能张量并行,同一时间只有一个显卡工作
Attenton
193 天前
500G 的显存为啥会无法完全加载 370G ?推理框架现在的事实标准应该都是 vllm 吧,试下 vllm 吧
jinja27
193 天前
@guoyijun163
但是 KT 不是走纯 CPU 方案吗?这样 8 路显卡的资源浪费不是更严重了?
jinja27
193 天前
@Attenton
500G 是内存,显存的话每张显卡实际可用的只有 44 左右,8*44 约 350G
jinja27
193 天前
@kk2syc
给过了,模型共 61 层,GPU 上只有 40 层,再大显存就不够了,但是 40 层显卡几乎没工作
jinja27
193 天前
@Attenton 而且我下载的 671B 4bit 量化是 gguf 格式,VLLM 运行不了
homolabby
192 天前
看看 sglang ?这个显存的量差不多 q4 可以完全装下?我记得 sglang 对于 moe 的支持好一些,尤其 ds r1
jingzf0214
191 天前
sglang 或者 TensorRT-LLM

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/1113396

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX