目前性价比最高的跑本地大模型显卡是？

Greendays

105 天前

不考虑改装显卡的话，4060ti 16G ？或者 3060 12G ？不过这些都跑不了 32B 模型，撑死了 14B 。Mac mini 用 36G 统一内存能跑 32B 模型，但是速度据说很慢的。

xziar

105 天前

来两张 16G 的卡开 TP 跑呗，4bit 能开很长的上下文了

defaqman

105 天前

4080 我感觉挺不错的，显存以及性能都不错

murmur

105 天前

本地大模型纯玩具啊，量化模型效果差的 1b ，不如去买 api ，还是画画涩图，处理下音乐提取个伴奏靠谱点

但是人家也是 NV+win 就是一键包，什么环境不需要双击就用，mac 对不起自己折腾代码去吧

lemonTreeTop

105 天前

好家伙🤭，标签给推荐了 3090 ，查了下是 24G 显存，能跑 gemma3 27b 量化版本

woojanelook

105 天前

魔改的 2080ti 22g 2000 多，应该是最便宜的单张显存，刚好够跑 flux 模型

YsHaNg

104 天前

@murmur 公司禁止使用 public provider 并且个人文档经常需要召回护照号之类的还是算了 ollama run 一下也没啥难的发现中美真的非常喜欢调 api

irrigate2554

104 天前

@lemonTreeTop 2080ti 22G 不仅可以跑，还快，上下文还多

mumbler

104 天前

2080 ti 22G 没有之一，2500 元左右，支持 nvlink 两块并联 44G

mumbler

104 天前

@murmur #10 这个观点已经非常落后了，本地有本地的场景，比如合同审核，本地用 qwen3 30B 都做得非常好了，纯 CPU 就能流畅运行，哪个公司的合同敢传云端 API 去处理

CoffeeY

99 天前

纯显卡层面说的话，性价比高的应该是 2080ti 22G 了，还可多卡 nvlink

goodboy95

33 天前

@murmur 一年前就有非纯玩具的模型了，基于 qwen 2.5 32B 微调的 sakura 翻译模型，翻译日本轻小说这方面是真不错，个人感觉虽然肯定比不上真人，也时不时搞错人称代词，但至少比 gpt-4o 要明显地强。
如果一部小说等不到人工翻译的话，这模型就相当够用了。

这是一个专为移动设备优化的页面（即为了让你能够在 Google 搜索结果里秒开这个页面），如果你希望参与 V2EX 社区的讨论，你可以继续到 V2EX 上打开本讨论主题的完整版本。

V2EX 是创意工作者们的社区，是一个分享自己正在做的有趣事物、交流想法，可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.