家用机带宽太小玩不转 local llm 啊

现在算力过剩，瓶颈都是显存带宽和显存大小，搜了一圈，感觉就两个方案有些可行性

一是 qwen3 embedding 8b int8 ，给本地知识库做向量化，结合云端 API ，应该能省一些 tokens ，配置的话，16G 显存的 N 卡都大差不差，或者 Apple M4 + 32G ？想试试给 claude code 加个 local embedding mcp

从这个角度讲，M4+32G 确实是个挺好的配置

二是买张魔改的 4090 48G ，可以跑 30b int8 或者 70b int4 ，可以用 QLoRA 调一下模型，玩玩 SillyTavern ？但看网评还是比云端 API 差太多，所以估计只有刘备玩家值得一试？

不知道 3 年后，国产 HBM+国产 GPU 能不能把大内存推理显卡的价格打下来……现在 Local LLM 还是不太行

ntedshen

3 月 16 日

bro 。。。你该睡觉了，不清醒了。。。

这个月的 intel 轻薄本人均 32g8533 的 lpd5 起步，64glpd5 的 camm2 条子三千块不到，你纠结个入门配置干啥。。。

azhangbing

3 月 16 日

别想 local 了 m 系列芯片 prefill 极慢提示词处理就很慢，上下文大了也 gg 太慢了，就算能跑 27b 又怎么样呢，9b 凑合用用单主力任务也不敢交给他啊，还是要线上模型 codex claude 最差也要 glm5 MiniMax2.5 这些了花钱也比买显卡笔记本强

Eleutherios

3 月 16 日

@ntedshen 但是带宽也只有 128G/s 吧？ 13B 都不顺畅
@stinkytofux 只能期望 Apple 的低功耗芯片了
@azhangbing 确实，但我还是希望 Mac Mini 能跑个 8B 左右的 embedding 。

sairoa

3 月 16 日

我都 mba m4 32G ，跑 35b a3b 或者 27b 都没问题，27b 速度很慢不可用，35b 虽然推理很快但首 token 很慢，综合考量 4b 是最平衡的。虽然电脑里一直跟着更新模型，但实际上还真没用本地模型解决问题，只是幻想着什么时候没有网络会用……

ntedshen

3 月 16 日

@Eleutherios 现时最强的核显也就是个 3060 算力，都区分不了带宽瓶颈还是算力瓶颈。。。
通常情况下核显的带宽瓶颈是很明显的，能卡到你鼠标不能动。。。

而且说真的现在硬件的基本盘依然是 8+256 ，去年就 v2 都还有人骂我是不是脑子有病在本地跑大模型的来着。。。
这才半年，早的很。。。

oldlamp

3 月 18 日

楼主预算能够 RX580 么？
好像用 RX580-2304sp 跑 omnicoder-9b 的 q4_k_m 量化版本 gguf （好像是 qwen3.5-9b 为基础弄的）都能有 14tokens/s：

https://mp.weixin.qq.com/s/bM1ICbcVw7ENwvKl-7MpiQ

qwen3.5-9b 好像能跟 gpt-oss 20b 掰掰手腕的，本地用估计一点简单场景可以试试。

ahdw

4 月 13 日

@oldlamp

Qwen3.5 非常啰嗦，思考就要占大量 context ，我看这篇文章里面才设置了 4K 上下文，一个洗车问题，或者棍子过门问题就能烧光这点预算，根本等不到吐出回答的时候。
14 tokens/s 其实有点儿慢。你能接受一个问题连想带回答要 5 分钟起步吗？

我也在调这个，用的机器也不求行，是一台闲置的 16GB M1 Pro MBP ，权重用的 Q4_K_M ，KV Cache 也用了 TurboQuant+，能开到 48K 上下文，15-18 tokens/s 。喜欢它的质量，但不太能接受这个速度。

要速度就要换成 Gemma-4-E4B ，同样的量化版本，能跑到 22-25 tokens/s ，速度可以接受了，但是质量差一点

oldlamp

4 月 14 日

@ahdw 好像上下文可以手动设置，我用 16GB M4 Air ，权重也做了妥协。Gemma4 质量差的感觉有点多，哎，世上安得双全法？

oldlamp

4 月 14 日

@ahdw

今天弄了几块 24G 现存的显卡，刚测试了一下 vulkan 的也能跑，稳定 80 以上，三个各自跑一个，还互不干扰。

这是一个专为移动设备优化的页面（即为了让你能够在 Google 搜索结果里秒开这个页面），如果你希望参与 V2EX 社区的讨论，你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/1198482

V2EX 是创意工作者们的社区，是一个分享自己正在做的有趣事物、交流想法，可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.