关于 5070ti 模型推理的速度和本地部署思考

前置条件：5070ti 16g ，llama.cpp ，全跑在显存。

1. 跑 gemma4 26b a4b iq4_xs 量化（ MoE 结构）

速度大概是 120t/s-150t/s ，首 token 和后续输出都很快

2. 跑 devstral small2 24b q4_k_m 量化（稠密结构）

速度大概是 8t/s-10t/s ，首 token 可能很慢，整体输出都慢得多。

思考：

现在的模型有两种结构：稠密（ Dense ）和 MoE （混合专家模型）。

以上述两种模型举例

稠密模型是所有层（ dev 这个有 40 层）都参与计算，消耗 24b 的完整算力，也就是单 token 2x24b=48gflops （不算量化），算力消耗大，推理成本高。

moe 是总共 26b 参数，每次推理只激活 4b

参数，只消耗激活参数 4b 的算力，单 token 算力消耗 2x4=8gflops ，算力消耗小很多，但有 26b 的参数（知识）。gemma 这个有 128 个专家，每次激活 8 个专家和 1 个共享专家（所有 token 必须首先经过共享专家），moe 模型是通过动态路由判断选择专家的。

可以看出算力需求差异巨大。

常见的几个顶级开源模型

glm5.1 参数 754b 激活 40b

deepseek-v4 pro 参数 1.6t 激活 49b

v4 flash 参数 284b 激活 13b

minimax2.5 参数 229b 激活 10b

moe 模型虽然每次激活的参数少，但必须把完整参数都全量加载到显存中。也就是说算力消耗大大减少，但显存需求没变。

可以大概推测，顶级大模型以后可能只有 moe 结构了，参数小的可能有稠密架构，因为算力成本还尚可接受，参数量很大的稠密结构，恐怕算力成本高到厂商也难以商用吧。

本地部署，我看来推理速度有 40-50token/s ，基本可以自用了，这是一个及格线。

我看来有两种比较好的本地部署方案

1. 买 nv 工作站显卡，pro6000 96g 咸鱼 6w 多，pro6000d 84g （显存没 ecc ，整体比 6000 略差）咸鱼 4w ，pro5000 84g 这种。

2. 用同等价钱稍微低点，等 m5 pro 的 mac mini/studio 发布后购买。

改显存，矿卡，二手的很久的专业卡等就不讨论了，不懂这部分。

mac 跑推理，olmx 官网我看了模型推理速度排行榜，还是差了点，不知道 4w 价钱的 m5 pro 的 mac mini/studio 会不会明显提高。

还有就是比如双 5070ti 跑模型推理，不知道速度怎么样，价钱相对不贵。我用的是 ddr4 pcie 4.0 的主板，双显卡要 pcie 拆分 8x8 ，pcie5.0 肯定更好，我得换主板换内存，成本太高，没法测试，如果内存没这么贵，就换主板买内存搞个 5060ti 16g 来测试了，这个可能也是一种方案吧。