体验了 Qwen2.5 Coder 32B 之后，我觉得本地 LLM 能用了

现在 Huggingface Chat 上可以在线体验：
https://huggingface.co/chat

一年前我尝试了绝大多数热门的，开放权重下载的 LLM 。当时得出的结论是：能本地跑的模型都没有实用价值，写代码的能力都非常糟糕。

最近发布的 Qwen2.5 Coder 32B 效果还真不错，感觉上比早期 GPT4 还强。只要能自己拆解需求，写出大体实现思路，它就可以给出基本上可用的代码。估计有 GPT4o 的水平。

它比我之前认为最好的 DeepSeek v2.5 236B 还好。DeepSeek 的问题在于上下文窗口太小，而且自己还会加超级多的解释和注释，甚至把输入复述一遍，浪费上下文长度。然后输出越长性能越差，甚至会崩溃成循环输出一个单词，所以，实际用起来不好用。

以我用 GPT 的经验，达到初版 GPT4 以上的水平就能提升开发效率。我认为，如今本地 LLM 真的有实用价值了。

Loocor

342 天前

哈哈，今天我也有这样的感概，不过不实用 32b 而是 7b ，因为我手上的机器是 m3 16Gb Macbook Air...
实际跑下来的速度可以接受，12.69 tok/sec
而电脑 cpu/mem 占用没超过 50%
所以 m4 / m4 pro 就可以期待了

beginor

342 天前

看来 M1 Max 还是很能打的嘛，本地用 llama.cpp 跑 qwen2.5-coder-32b-instruct-q8_0.gguf 结果如下：

```
prompt eval time = 2354.87 ms / 117 tokens ( 20.13 ms per token, 49.68 tokens per second)
eval time = 71813.88 ms / 521 tokens ( 137.84 ms per token, 7.25 tokens per second)
total time = 74168.75 ms / 638 tokens
srv update_slots: all slots are idle
request: POST /chat/completions 127.0.0.1 200
```

自己用的话还是可以的，继续等 M5 、M6 、M7 ...

glcolof

342 天前

32B 使用 4bit 量化，可以在 4090 上比较流畅的跑了。但是上下文长度可能跑不到 128K ，我还没试过。
其实 14B 的模型也很有可用性了。

kennylam777

342 天前

@yanyuechuixue 你是問 exl2 的量化吧? 我用這個, bartowski 家的 exl2 量化很多。
https://huggingface.co/bartowski/Qwen2.5-Coder-32B-Instruct-exl2

這種 model 應該大家都用的 Instruct 版, Base model 沒 SFT 過應該不好用。

@glcolof 我在 Windows 跑 4.25b 量化, 20K 是沒問題的, 節省其他開銷的話可能 30K 也行, 但我也沒調過 YARN 就是了。

yanyuechuixue

342 天前

@kennylam777 不好意思，我是个新手，能否请教您一下，不同的量化有什么不同呀？

例如 exl2 量化，W4A16 量化 , GPTQ 量化，他们的性能会有比较大的不同么？

我现在简单起见，直接用了 ollama 给出的 Int4 ，想去挑一个好的

clino

342 天前

@zhmouV2 我在 cursor 上用 deepseek 感觉还挺好，你说的是哪方面问题？
是不是我很多时候是在用 ctrl+k 做局部代码迭代，所以比较没有碰到你们说的这些问题。

kennylam777

341 天前

@yanyuechuixue 不同量化方案各有千秋, 主要分別是硬件支援, 表現也各有不同。

例如 exl2 是我用過最快的方案, 而且量化選擇比較多. 4bit 以外還有 5/5.5/6bit 等等, 對我來說比較容易選一個剛好塞進 4090 的配搭。問題是, 快是很快, 但只限 CUDA only 及 RTX30x0 以上的 GPU, 而且支援軟件不足, 也不能配 PEFT, 所以只能用來跑推理。

GPTQ 是只有 4bit 和 8bit 兩個選擇, VRAM 利用率不及 exl2, 速度也慢, 但 GPTQ 的好處是支援軟件比較多, 而且能直接用 PEFT 做 LoRA 微調。

GGUF 沒用過, 但我知道 Apple Silicon 的用家都是靠它的量化。

其實還有 bitsandbytes 的量化, 直接載入原 model 時的 4bit/8bit 量化, 推理效果不及 exl2/GPTQ/GGUF 好, 但要跑 qLoRA 微調的話, bitsandbytes 還是最通用的方案。

yanyuechuixue

339 天前

@kennylam777 非常感谢！

我还得多加学习。
那我用 exl2 就好了，我也正是有一个 4090 和 4060ti , 也只是用来做对话，足够了。

感谢大哥!

这是一个专为移动设备优化的页面（即为了让你能够在 Google 搜索结果里秒开这个页面），如果你希望参与 V2EX 社区的讨论，你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/1089179

V2EX 是创意工作者们的社区，是一个分享自己正在做的有趣事物、交流想法，可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.