浅试了一下 Qwen3.6-35B-A3B，很强

感觉比 3.5 强不少，秒 gemma4 。可以说是 24G 内存 mac 或显卡的目前最佳本地模型，稠密的太慢了。

有个很困难的只有 GPT5.4 才能找到的代码 bug ，它当然也是找不出来的。

还是给 openai 充钱吧，开源就只能玩一玩。

hanguofu

4 月 16 日

谢谢分享，楼主你是在什么硬件上跑的啊？给个参考呗 ~

qdwang

4 月 17 日

@MLawliet 跑的 iq4_xs 量化，运算时刚刚好吃满 23g 内存，不会写 swap ，128k 上下文。

做了 100k 上下文里乱序随机位置插 26 个关联计算题测试，能做对。

Hermitist

4 月 17 日

我用 omlx 直接下, git clone, hf 下, 都不能完整下来, 不知道什么鸟情况.

qdwang

4 月 17 日

@Hermitist mac 不要用 mlx ，mlx 一方面量化模型拉垮，另一方面速度也不快，第三方面内存占用还高，第四方面整个包体积太大。

gguf 系强太多，少折腾直接上 llama.cpp ，手动下载 gguf 模型

xing7673

4 月 18 日

小模型不要太期待有多强的智能，我是觉得可以在 hermes 这种 agent 上让大模型做好 skill ，安排好边界处理后再让小模型去处理，看看这种老师带学生的模式能不能持续比较好。

Hermitist

4 月 18 日

@qdwang 之前跑过 llama.cpp, 没有 omlx 快, 我是 macbookair 32G M5

qdwang

4 月 18 日

@Hermitist 快是因为 mlx 量化里，有些关键权重被砍成低量化了，会速度快但是质量差。你测试 gguf 也会发现，同样 4bit 里，iq4_xs 会比 q4_k_m 快很多。

Hermitist

4 月 18 日

@qdwang 我现在的问题是我下载的模型 https://huggingface.co/Qwen/Qwen3.6-35B-A3B-FP8/tree/main 我的 omlx 启动不了, 说是超过内存限制了, 请问你你从哪里下载的 4bit 的?

godymho

4 月 18 日

我的 24G mac iq4_xs 跑不起来。降到了 2bit 试了一下，30token 左右

wsbqdyhm

4 月 19 日

m1max64 跑。直接起飞，最好的开源能跑的模型，没有之一，吊打 gemma4.脚踢 qwen3.5 ，个人用下来有 minimax2.7 ，5-6 成能力了。搭配 openclaw 和 hermes

qdwang

4 月 19 日

@Hermitist 你 32g 的 mac 跑 38g 的模型肯定不行的。

https://huggingface.co/unsloth/Qwen3.6-35B-A3B-GGUF
这里可以下载适合你的

Hermitist

4 月 20 日

@qdwang 我其实用过 https://github.com/TheTom/turboquant_plus 带 kv cache 跑过 ollam.cpp 不过感觉 gguf 量化的过分, 不过我还是准备试下.

这是一个专为移动设备优化的页面（即为了让你能够在 Google 搜索结果里秒开这个页面），如果你希望参与 V2EX 社区的讨论，你可以继续到 V2EX 上打开本讨论主题的完整版本。

V2EX 是创意工作者们的社区，是一个分享自己正在做的有趣事物、交流想法，可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.