本地跑 QwQ 32B K4 或 DeepSeek R1 70B K4 以上量化，什么配置性价比最高？

2025 年 3 月 6 日

clear

希望能够到 50tokens/s 以上。

另外问下请问怎么计算量化后 GGUF 对 CPU 和内存的性能要求，有一台老机器跑 GGUF ，速度非常慢，但是内存和 CPU 都没有占满，CPU 仅占用 40%。

除了内存的吞吐，对 CPU 有什么要求吗？还是需要什么特别的配置？ QwQ 32B K4 或 DeepSeek R1 70B K4 对内存带宽要求多少？

716 次点击

所在节点

问与答

1 条回复

ShadowPower

2025 年 3 月 6 日

公式非常简单，每秒生成的 token 数（ token/s ）= 内存带宽（ Bytes/s ）/ 每个 token 的数据传输量（ Bytes/token ）

举个例子：
参数量：70B （ 70 × 10^9 ）
参数精度：float16 (2 Bytes)
带宽：1TB/s （ 10^12 Bytes/s ）

理论性能：
10^12 / (70 × 10^9 × 2) ≈ 7.14 token/s

第 1 页／共 1 页

这是一个专为移动设备优化的页面（即为了让你能够在 Google 搜索结果里秒开这个页面），如果你希望参与 V2EX 社区的讨论，你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/1116434

V2EX 是创意工作者们的社区，是一个分享自己正在做的有趣事物、交流想法，可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.