@
davidyin 我不专业,但是有些经验你可以参考:
12G 显存太小了,完全完全地不推荐。小的模型完全能跑,甚至跑挺快,但模型本身太小鸡肋无用,能做点事的模型至少 30B 左右。哪怕 Q4 了你 12G 也跑不动。我有一个 3060 ,12G 显存,算力带宽都没问题但是生产力相关的基本什么都跑不了。
另外 UMA 带宽小的要谨慎。比如 AI MAX 395 ,我有一台,请谨慎考虑。用 Qwen3.6 35B 那些 MoE 模型倒是挺好,密集模型速度很慢,比如 Qwen3.6 27B ,不错的模型,但是跑推理大概 10t/s 不到,非常缓慢。不知道未来上 MTP 或者投机解码会不会有一点改善,最近 llama.cpp 有但是貌似还没进主线。另外在 395 上 Q4,Q5 的 Qwen3.5 122B 倒也不是不能跑,但是经常让我觉得不如高精度的 Qwen3.6 35B 。
还有 AI MAX 395 跑 ComfyUI 那些扩散模型玩 AIGC 也不快,能跑是都能跑,就是太慢。跑 LTX-2.3 生成 5 秒视频用了 15 分钟。这机器内存大很多东西都能跑,但问题是很多东西跑不快...
精度也很重要,我不觉得 Q4 量化真的好用。能跑归能跑,但是回答模棱两可,幻觉多,不建议用于生产。为了生产有条件建议 Q6 起步。
说到底还是建议直接 VRAM 直接 32G 起步吧。首先关注 VRAM,其次关注带宽。24G 可以是 ComfyUI 玩得舒服,但是你要跑编码我真不建议。
如果没这个预算建议买 API,剩下钱理财。说不定还能再赚点,过一年再看看模型能力提高,硬件会不会降价。不然你的钱就是打水漂的。
我只是踩过坑,请你千万不要对 20G 以下 VRAM 抱有任何不切实际的幻想。甚至我上文提到的那些模型生产力在 claude, gemini 和 chatGPT 面前也不是一个档次的。只是说,它具备这个能力罢了。
我是之前有搞信息安全上的需要,我不得不用 abliterated 模型才搞的...