CatCode
V2EX  ›  Local LLM

Gemma4 12B 如何跑在 16G 显存上?

  •  
  •   CatCode · 4h 13m ago · 1194 views

    Google 发布了 Gemma 4 的一个新模型,12B 参数,看介绍不是 MoE 。
    https://blog.google/innovation-and-ai/technology/developers-tools/introducing-gemma-4-12b/

    看 HF 和 Kaggle 上都是 BF16 数据类型,权重文件大小 23.9GB 左右。
    https://huggingface.co/google/gemma-4-12B-it/tree/main
    https://www.kaggle.com/models/google/gemma-4/transformers/gemma-4-12b-it

    Google 在博客里专门强调了 Laptop ready: Small enough to run locally with just 16GB of VRAM or unified memory.

    这是怎么做到能在 16G 显存上跑的?
    还是说 BF16 的不能跑,要 FP8 量化的才行?但这种量化之后能在 16G 卡上跑的模型很多了,还有很多参数量更大的模型。

    10 replies    2026-06-05 10:59:41 +08:00
    Seanfuck
        1
    Seanfuck  
       4h 6m ago
    一般是量化了;还有就是 GPU 卸载,显存只加载一部分权重。
    chenY520
        2
    chenY520  
       3h 31m ago
    量化版的
    JerningChan
        3
    JerningChan  
       3h 30m ago
    12b 的参数够看吗?我感觉怎么也得 27b 起步的才好用吧?
    sharpy
        4
    sharpy  
       3h 25m ago
    q4 量化
    sagnitude
        5
    sagnitude  
       3h 21m ago
    这种小卡跑模型都是跑个 Q4 玩玩的,别说 16 了,Q8 都没法玩。
    kennylam777
        6
    kennylam777  
       3h 18m ago
    Gemma4 12B Q4 GGUF 我測過是能跑得動 Github Copilot 的 tool use, 32GB 的 laptop 勉強能跑還有 ctx 65536, 小模型用輕量的 agent 例如 pi.dev 效果會更好

    FP8 就留給 RTX Spark 的 laptop 吧, 5090 Mobile 24GB 也許還可以?

    Gemma4/Qwen3.5 3.6 比上年的 Gemma 3/Qwen3 都強很多, 但 LLM 愈大愈強是必然的, 我用 5090 Desktop 還是在用 Qwen 3.6 35B A3B NVFP4 才算滿意, KV 都不敢壓
    cin
        7
    cin  
       3h 13m ago
    Q4 量化不到 8G, 直接用 ollama
    `ollama run gemma4:12b`
    BingoXuan
        8
    BingoXuan  
       3h 8m ago
    gemma 真的没用心做。openrouter 的 api 测试 3.6 27B 都比 31B 好。最近一直测试 Q6_K 量化版本,加了 MTP 加速后,质量并没有损失太多。可惜 MTP 没有视觉,不然加上 web search ,几乎可以和 deepseek4 pro 一拼
    jhytxy
        9
    jhytxy  
       3h 1m ago
    q4 的不行,跟原版比智商差不少
    q6_K_XL 凑合
    q8 差不多原版.最少上 q6
    nutting
        10
    nutting  
       1h 58m ago
    16G 显存,什么模型和方式可以没问题运行 cc 的?光输出文字都很轻松,调用 tools 就不行了
    About   ·   Help   ·   Advertise   ·   Blog   ·   API   ·   FAQ   ·   Solana   ·   3593 Online   Highest 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 45ms · UTC 04:58 · PVG 12:58 · LAX 21:58 · JFK 00:58
    ♥ Do have faith in what you're doing.