各位大佬,最近尝试部署 R1-671B 遇到了不少问题,希望能有大牛来帮忙解答: 基本情况:2 块 Intel(R) Xeon(R) Gold 5318Y CPU @ 2.10GHz+8 路 L40+500G 内存 部署 DeepSeek-R1-671B-Q4_K ,约 370G
由于模型文件无法完整加载到 8 张显存上(只能加载约 40 层)
最终结果感觉不理想:
8 张显卡显存近乎加载完全,但是 GPU 利用率仅 3%左右 llama_perf_sampler_print: sampling time = 166.42 ms / 1222 runs ( 0.14 ms per token, 7342.91 tokens per second)
llama_perf_context_print: load time = 74364.88 ms
llama_perf_context_print: prompt eval time = 20711.60 ms / 54 tokens ( 383.55 ms per token, 2.61 tokens per second)
llama_perf_context_print: eval time = 635627.49 ms / 3816 runs ( 166.57 ms per token, 6.00 tokens per second)
现在我的问题是: 1.是否因为显存瓶颈导致的 CPU+GPU 混合推理性能低? 8 路显卡在我这个场景里是否存在严重的显卡资源浪费?在不改变硬件的前提下是否有优化空间?如何优化? 2.如果此场景并发的话大概能有多少并发量? 3.我使用的是 llama.cpp ,使用其他推理框架,如 kt ,能有更好的效果吗? 4.如果 GPU 能完整加载,性能提升大概多少? 5.如果更新硬件如何更新? CPU 是否是此场景的瓶颈? 6.并发量主要取决于什么技术指标呢?
这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。
V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。
V2EX is a community of developers, designers and creative people.