前置条件:5070ti 16g ,llama.cpp ,全跑在显存。
1. 跑 gemma4 26b a4b iq4_xs 量化( MoE 结构)
速度大概是 120t/s-150t/s ,首 token 和后续输出都很快
2. 跑 devstral small2 24b q4_k_m 量化 (稠密结构)
速度大概是 8t/s-10t/s ,首 token 可能很慢,整体输出都慢得多。
思考:
现在的模型有两种结构:稠密( Dense )和 MoE (混合专家模型)。
以上述两种模型举例
稠密模型是所有层( dev 这个有 40 层)都参与计算,消耗 24b 的完整算力,也就是单 token 2x24b=48gflops (不算量化),算力消耗大,推理成本高。
moe 是总共 26b 参数,每次推理只激活 4b
参数,只消耗激活参数 4b 的算力,单 token 算力消耗 2x4=8gflops ,算力消耗小很多,但有 26b 的参数(知识)。gemma 这个有 128 个专家,每次激活 8 个专家和 1 个共享专家(所有 token 必须首先经过共享专家),moe 模型是通过动态路由判断选择专家的。
可以看出算力需求差异巨大。
常见的几个顶级开源模型
glm5.1 参数 754b 激活 40b
deepseek-v4 pro 参数 1.6t 激活 49b
v4 flash 参数 284b 激活 13b
minimax2.5 参数 229b 激活 10b
moe 模型虽然每次激活的参数少,但必须把完整参数都全量加载到显存中。也就是说算力消耗大大减少,但显存需求没变。
可以大概推测,顶级大模型以后可能只有 moe 结构了,参数小的可能有稠密架构,因为算力成本还尚可接受,参数量很大的稠密结构,恐怕算力成本高到厂商也难以商用吧。
本地部署,我看来推理速度有 40-50token/s ,基本可以自用了,这是一个及格线。
我看来有两种比较好的本地部署方案
1. 买 nv 工作站显卡,pro6000 96g 咸鱼 6w 多,pro6000d 84g (显存没 ecc ,整体比 6000 略差)咸鱼 4w ,pro5000 84g 这种。
2. 用同等价钱稍微低点,等 m5 pro 的 mac mini/studio 发布后购买。
改显存,矿卡,二手的很久的专业卡等就不讨论了,不懂这部分。
mac 跑推理,olmx 官网我看了模型推理速度排行榜,还是差了点,不知道 4w 价钱的 m5 pro 的 mac mini/studio 会不会明显提高。
还有就是比如双 5070ti 跑模型推理,不知道速度怎么样,价钱相对不贵。我用的是 ddr4 pcie 4.0 的主板,双显卡要 pcie 拆分 8x8 ,pcie5.0 肯定更好,我得换主板换内存,成本太高,没法测试,如果内存没这么贵,就换主板买内存搞个 5060ti 16g 来测试了,这个可能也是一种方案吧。
这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。
https://www.v2ex.com/t/1213838
V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。
V2EX is a community of developers, designers and creative people.