体验了 Qwen2.5 Coder 32B 之后，我觉得本地 LLM 能用了

342 天前

ShadowPower

现在 Huggingface Chat 上可以在线体验：
https://huggingface.co/chat

一年前我尝试了绝大多数热门的，开放权重下载的 LLM 。当时得出的结论是：能本地跑的模型都没有实用价值，写代码的能力都非常糟糕。

最近发布的 Qwen2.5 Coder 32B 效果还真不错，感觉上比早期 GPT4 还强。只要能自己拆解需求，写出大体实现思路，它就可以给出基本上可用的代码。估计有 GPT4o 的水平。

它比我之前认为最好的 DeepSeek v2.5 236B 还好。DeepSeek 的问题在于上下文窗口太小，而且自己还会加超级多的解释和注释，甚至把输入复述一遍，浪费上下文长度。然后输出越长性能越差，甚至会崩溃成循环输出一个单词，所以，实际用起来不好用。

以我用 GPT 的经验，达到初版 GPT4 以上的水平就能提升开发效率。我认为，如今本地 LLM 真的有实用价值了。

18279 次点击

所在节点

Local LLM

98 条回复

trungdieu031

342 天前

配 64G 内存的主机，做下量化，完全可以跑 32B 的模型了。如果不特别追求速度的话也不用非得上两块 GPU~

WispZhan

342 天前

M3 MAX 128G 或者 M4 Ultra 128G 应该能勉强跑起来吧，只是 token 输出有点慢。

GuryYu

342 天前

M3 max, 运行 32B 模型测试，感觉已经可以基本满足日常使用了

32B Q4：处理速度 13.07 tok/sec 占用统一内存 21G
32B Q6：处理速度 8.58 tok/sec 占用统一内存 29G
32B Q8：处理速度 9.76 tok/sec 占用统一内存 40G ，（ MLX ）

另外也测试了 14B 模型
14B Q4：处理速度 22.83 tok/sec 占用统一内存 11G

orangeD

342 天前

@spike0100 那手头的机器刚测了一下，Qwen2.5 32b 模型 M4Pro 高配+48G 内存上能达到 10.55tokens/s ，M1Pro 高配+32G 内存：6.83 tokens/s

yinmin

342 天前

问：你使用哪个 AI 模型？是哪个公司开发的？

回答的结果有点出乎意料，又有点意料之中。2024 年末训练出来的 AI 还出这种情况，汗~

emberzhang

342 天前

@orangeD 我刚才拿 m2 max 跑 qwen2.5:32b 是 11.04 toks ，这个 toks 没法用代码补完的，根本等不到出字。chat 的话倒是基本没问题

@yanyuechuixue 显存爆了之后直接扑街，刚才拿 4070tis+8845hs+5600mhz 内存，qwen2.5:32b 只有 6.00 toks

chachi

342 天前

m4max
qwen2.5 coder 32B Q8 MLX
12.94 tok/sec

234ygg

342 天前

别搞笑了，连 3.5 都远不如，还和 4o 比。。。只能说你写的代码毫无价值

csys

342 天前

这个确实很不错，主要是 32B 刚好碰到了本地部署的门槛了

Ayahuasec

342 天前

手头在用 2080ti 22g 跑，32b q4_k_s 性能大概是 prompt_token/s: 475.37, response_token/s: 23.82
qwen2.5-coder-32b 的输出感觉和 qwen2.5-32b 差不太多，之前耍 qwen2.5 已经觉得有很高的可用性了

ShadowPower

342 天前

@234ygg 3.5 没有你想象中那么强，目前 7B 参数量就有 3.5 的能力。3.5 只能写一些模板代码，或者提供代码给它做一些调整，写不出有点深度的东西。
只是在那个从 0 到 1 的时期显得非常惊艳罢了。

ShadowPower

342 天前

@WispZhan M3 MAX 128G 可以随便跑，估计还挺快的。M4 Ultra 还没发布呢……

leo72638

342 天前

请问怎么确定自己的硬件适合什么模型

cooltechbs

342 天前

原来 DeepSeek 本身就有循环输出一个单词的问题啊。我还以为是我 finetune 搞坏了...

mayli

342 天前

@GuryYu 你这是啥工具？

fox0001

342 天前

本地化部署的话，lm studio 给我打开了新世界

dimondai

342 天前

本地上 MAC Mini M4 能跑了吧？

fox0001

342 天前

@leo72638 #73 我用过 LM Studio ，直接从 huggingface 下载模型，并且会标识那些能在本机跑

GuryYu

342 天前

@mayli #75 LM Studio

Cloud9527

342 天前

@234ygg 3.5 已经有点老了好吧

第 4 页／共 5 页

这是一个专为移动设备优化的页面（即为了让你能够在 Google 搜索结果里秒开这个页面），如果你希望参与 V2EX 社区的讨论，你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/1089179

V2EX 是创意工作者们的社区，是一个分享自己正在做的有趣事物、交流想法，可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.