tootfsg
V2EX  ›  Local LLM

关于 5070ti 模型推理的速度和本地部署思考

  •  
  •   tootfsg · 2h 32m ago via Android · 196 views
    前置条件:5070ti 16g ,llama.cpp ,全跑在显存。

    1. 跑 gemma4 26b a4b iq4_xs 量化( MoE 结构)

    速度大概是 120t/s-150t/s ,首 token 和后续输出都很快

    2. 跑 devstral small2 24b q4_k_m 量化 (稠密结构)

    速度大概是 8t/s-10t/s ,首 token 可能很慢,整体输出都慢得多。



    思考:

    现在的模型有两种结构:稠密( Dense )和 MoE (混合专家模型)。

    以上述两种模型举例

    稠密模型是所有层( dev 这个有 40 层)都参与计算,消耗 24b 的完整算力,也就是单 token 2x24b=48gflops (不算量化),算力消耗大,推理成本高。

    moe 是总共 26b 参数,每次推理只激活 4b

    参数,只消耗激活参数 4b 的算力,单 token 算力消耗 2x4=8gflops ,算力消耗小很多,但有 26b 的参数(知识)。gemma 这个有 128 个专家,每次激活 8 个专家和 1 个共享专家(所有 token 必须首先经过共享专家),moe 模型是通过动态路由判断选择专家的。



    可以看出算力需求差异巨大。



    常见的几个顶级开源模型

    glm5.1 参数 754b 激活 40b

    deepseek-v4 pro 参数 1.6t 激活 49b

    v4 flash 参数 284b 激活 13b

    minimax2.5 参数 229b 激活 10b



    moe 模型虽然每次激活的参数少,但必须把完整参数都全量加载到显存中。也就是说算力消耗大大减少,但显存需求没变。



    可以大概推测,顶级大模型以后可能只有 moe 结构了,参数小的可能有稠密架构,因为算力成本还尚可接受,参数量很大的稠密结构,恐怕算力成本高到厂商也难以商用吧。



    本地部署,我看来推理速度有 40-50token/s ,基本可以自用了,这是一个及格线。



    我看来有两种比较好的本地部署方案



    1. 买 nv 工作站显卡,pro6000 96g 咸鱼 6w 多,pro6000d 84g (显存没 ecc ,整体比 6000 略差)咸鱼 4w ,pro5000 84g 这种。

    2. 用同等价钱稍微低点,等 m5 pro 的 mac mini/studio 发布后购买。



    改显存,矿卡,二手的很久的专业卡等就不讨论了,不懂这部分。



    mac 跑推理,olmx 官网我看了模型推理速度排行榜,还是差了点,不知道 4w 价钱的 m5 pro 的 mac mini/studio 会不会明显提高。



    还有就是比如双 5070ti 跑模型推理,不知道速度怎么样,价钱相对不贵。我用的是 ddr4 pcie 4.0 的主板,双显卡要 pcie 拆分 8x8 ,pcie5.0 肯定更好,我得换主板换内存,成本太高,没法测试,如果内存没这么贵,就换主板买内存搞个 5060ti 16g 来测试了,这个可能也是一种方案吧。
    No Comments Yet
    About   ·   Help   ·   Advertise   ·   Blog   ·   API   ·   FAQ   ·   Solana   ·   3645 Online   Highest 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 26ms · UTC 10:23 · PVG 18:23 · LAX 03:23 · JFK 06:23
    ♥ Do have faith in what you're doing.