8x4090 离线部署 Qwen2.5 求助

329 天前
 fid

设备配置

需求

方案

有没有一种好的方式快速部署

4588 次点击
所在节点    Local LLM
40 条回复
fid
328 天前
@Azure99 #11
@Fanhz #12
感谢推荐 sglang !
fid
328 天前
@mythabc #13
1. 感谢建议,会着手解决
2. ollama 感觉确实是玩具 hh
3. 感谢推荐,我去了解一下
4. 确实,感觉现成的 open_webui 就行,兼容 openai api
fid
328 天前
@kenvix #14 多谢!这就去上 72B
fid
328 天前
@oldfans #15
ollama 确实不适合多卡。

目前方案是 LMdeploy ,比 vllm 好

我去用 72B 了哈哈

还是大参数量好,充分利用 gpu
fid
328 天前
@DreamingCTW #17 ollama 多卡不太行吧
fid
328 天前
@woscaizi #19 好的,感谢推荐!
fid
328 天前
@Les1ie #20
1. q4km 量化多卡不太合适,目前尝试 72B awq 量化+LMdeploy ,参数级提升应该大于精度提升
2. 我协调一下显卡使用,应该能合理分配,毕竟多卡通信存在速度损失
3. qwen2.5 优于 deepseek 吧
4. 本地部署必要,100%无法联网,4o 还是太成熟了
fid
328 天前
@wantstark #18 我是一台机器多卡,暂时没有分布式条件,可能没有表述清楚
liu731
328 天前
礼貌请问 OP 内存( RAM )多大,学习下。
fid
328 天前
@liu731 显卡内存 8x24g ,正文写了的
DreamingCTW
328 天前
@fid #25 还行吧,还得看你硬件的融合方案
lixile
328 天前
一样的配置 近似版本的系统
32B 对我来说 也几乎没办法使用 内网下还是太弱
楼主 72B 部署成功的话 记得反馈一下方案 和实际效果 我就对照着部署一下
kennylam777
328 天前
單機的話直接用 ExLlama2 呀, 量化有 2/3/4/5/6/8 bit, 簡單支援多卡, 自動或手動調整 VRAM 分配, 測試時用 text-generation-webui, 生產環境用 TabbyAPI 即可有 OpenAI compatible API, Concurrent inference with asyncio 能同時處理多個請求增加吞吐量。

我就在用單機配兩張 3090 跑 Qwen2.5 32B 8bit 量化, 32K context window 全開也足夠了, 8 張 4090 應該能直接跑 72B 不量化吧, 但 PCIe 頻寬會有問題。
kennylam777
328 天前
順帶一提, 我用單張 4090 已經能跑 Qwen2.5 72B 的 ExLlamav2 量化轉換程式(convert), 4/5/6bits 等等模型檔在本地隨便生成, Huggingface 上也有很多已經量化好的 exl2 模型
fid
327 天前
@lixile #32 8 卡同时跑大概每张卡占用 20-30%,占用率还是非常低的,使用的是 awq int4 ,使用体验很顺滑
fid
327 天前
@kennylam777 #33 目前方案是 8x4090+Qwen2.5-72B-Instruct-AWQ+lmdeploy ,体验良好,占用低
fid
327 天前
@fid #35

@lixile #32
更正,8x4090 单张 78-90%占用
fid
327 天前
@kennylam777
@lixile
可以查看最新 append
fid
327 天前
@mythabc 4 卡应该不太够用,可以看看最新 append
fid
327 天前
@Les1ie @mythabc @Leon6868 当前配置还有必要优化吗

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/1094501

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX