体验了 Qwen2.5 Coder 32B 之后,我觉得本地 LLM 能用了

343 天前
 ShadowPower
现在 Huggingface Chat 上可以在线体验:
https://huggingface.co/chat

一年前我尝试了绝大多数热门的,开放权重下载的 LLM 。当时得出的结论是:能本地跑的模型都没有实用价值,写代码的能力都非常糟糕。

最近发布的 Qwen2.5 Coder 32B 效果还真不错,感觉上比早期 GPT4 还强。只要能自己拆解需求,写出大体实现思路,它就可以给出基本上可用的代码。估计有 GPT4o 的水平。

它比我之前认为最好的 DeepSeek v2.5 236B 还好。DeepSeek 的问题在于上下文窗口太小,而且自己还会加超级多的解释和注释,甚至把输入复述一遍,浪费上下文长度。然后输出越长性能越差,甚至会崩溃成循环输出一个单词,所以,实际用起来不好用。

以我用 GPT 的经验,达到初版 GPT4 以上的水平就能提升开发效率。我认为,如今本地 LLM 真的有实用价值了。
18290 次点击
所在节点    Local LLM
98 条回复
nutting
342 天前
24G 显存的 p40 显卡能玩吗
yanyuechuixue
342 天前
@kennylam777
能给一个 coder 的链接不?
我只找到了 instruct 的链接
Loocor
342 天前
哈哈,今天我也有这样的感概,不过不实用 32b 而是 7b ,因为我手上的机器是 m3 16Gb Macbook Air...
实际跑下来的速度可以接受,12.69 tok/sec
而电脑 cpu/mem 占用没超过 50%
所以 m4 / m4 pro 就可以期待了
yanyuechuixue
342 天前
@yanyuechuixue ok 找到了,谢谢!
zdt3476
342 天前
@orangeD 32G 内存也能跑啊。那我用我的 M2 Max 试试
beginor
342 天前
看来 M1 Max 还是很能打的嘛, 本地用 llama.cpp 跑 qwen2.5-coder-32b-instruct-q8_0.gguf 结果如下:

```
prompt eval time = 2354.87 ms / 117 tokens ( 20.13 ms per token, 49.68 tokens per second)
eval time = 71813.88 ms / 521 tokens ( 137.84 ms per token, 7.25 tokens per second)
total time = 74168.75 ms / 638 tokens
srv update_slots: all slots are idle
request: POST /chat/completions 127.0.0.1 200
```

自己用的话还是可以的,继续等 M5 、M6 、M7 ...
beginor
342 天前
@emberzhang 补全代码用 starcoder2-3b.q8_0.gguf 就好,超过 7b 的都是浪费。chat 可以再跑一个大一点儿的
glcolof
342 天前
32B 使用 4bit 量化,可以在 4090 上比较流畅的跑了。但是上下文长度可能跑不到 128K ,我还没试过。
其实 14B 的模型也很有可用性了。
kennylam777
342 天前
@yanyuechuixue 你是問 exl2 的量化吧? 我用這個, bartowski 家的 exl2 量化很多。
https://huggingface.co/bartowski/Qwen2.5-Coder-32B-Instruct-exl2

這種 model 應該大家都用的 Instruct 版, Base model 沒 SFT 過應該不好用。

@glcolof 我在 Windows 跑 4.25b 量化, 20K 是沒問題的, 節省其他開銷的話可能 30K 也行, 但我也沒調過 YARN 就是了。
plutomiao
342 天前
@hutoer 魔改的哪里买靠谱啊。。
9
342 天前
本地大模型纯折腾,现在网上这么多好用的
WispZhan
342 天前
@ShadowPower M4 Ultra 快了,不是这个月底,就是下个月。和 Studio 一起吧
WispZhan
342 天前
@WispZhan 搞错了,应该没那么快
Donaldo
342 天前
@9 #91 跑个翻译的还不错。
yanyuechuixue
342 天前
@kennylam777 不好意思,我是个新手,能否请教您一下,不同的量化有什么不同呀?

例如 exl2 量化,W4A16 量化 , GPTQ 量化,他们的性能会有比较大的不同么?

我现在简单起见,直接用了 ollama 给出的 Int4 ,想去挑一个好的
clino
342 天前
@zhmouV2 我在 cursor 上用 deepseek 感觉还挺好,你说的是哪方面问题?
是不是我很多时候是在用 ctrl+k 做局部代码迭代,所以比较没有碰到你们说的这些问题。
kennylam777
341 天前
@yanyuechuixue 不同量化方案各有千秋, 主要分別是硬件支援, 表現也各有不同。

例如 exl2 是我用過最快的方案, 而且量化選擇比較多. 4bit 以外還有 5/5.5/6bit 等等, 對我來說比較容易選一個剛好塞進 4090 的配搭。問題是, 快是很快, 但只限 CUDA only 及 RTX30x0 以上的 GPU, 而且支援軟件不足, 也不能配 PEFT, 所以只能用來跑推理。

GPTQ 是只有 4bit 和 8bit 兩個選擇, VRAM 利用率不及 exl2, 速度也慢, 但 GPTQ 的好處是支援軟件比較多, 而且能直接用 PEFT 做 LoRA 微調。

GGUF 沒用過, 但我知道 Apple Silicon 的用家都是靠它的量化。

其實還有 bitsandbytes 的量化, 直接載入原 model 時的 4bit/8bit 量化, 推理效果不及 exl2/GPTQ/GGUF 好, 但要跑 qLoRA 微調的話, bitsandbytes 還是最通用的方案。
yanyuechuixue
339 天前
@kennylam777 非常感谢!

我还得多加学习。
那我用 exl2 就好了,我也正是有一个 4090 和 4060ti , 也只是用来做对话,足够了。

感谢大哥!

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/1089179

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX