本地部署 DeepSeek-R1 671B 千亿大模型流程

234 天前
 snowkylin
https://snowkylin.github.io/blogs/a-note-on-deepseek-r1.html

(以下介绍就是 DeepSeek R1 写的,我觉得还挺厉害的,我是写不出来……)

🚀 测试模型:
1.73-bit 量化版( 158GB ,每秒 7-8 个词)
4-bit 量化版( 404GB ,每秒 2-4 个词)

💻 硬件需求:
1.73-bit:内存+显存 ≥ 200GB
4-bit:内存+显存 ≥ 500GB
实测配置:4 块 RTX4090 显卡( 96G 显存) + 384G DDR5 内存

⚡ 性能对比:
短文本生成:1.73-bit 速度碾压,长文本会卡到 1-2 词/秒
瓶颈竟是 CPU 和内存,GPU 全程摸鱼(利用率 1-3% 😂)

🤖 模型性格差异:
1.73-bit:毒舌傲娇,敢怼 ChatGPT:
“哼!还在用老古董 ChatGPT ?(◔‸◔) 我的训练费可没烧穿钱包!”
4-bit:安全标兵,拒绝一切危险发言,全程官方脸 😇

🔧 部署步骤:
下载+合并 GGUF 文件
装 Ollama + 调参数( GPU 分层加载)
跑模型,内存炸了?减层数!
可选:搭配 OpenWebUI 变身高配版 ChatGPT !

✨ 总结:
1.73-bit 版性价比超高,适合短平快任务!长对话会变树懒…🦥
完整教程在博客,硬核玩家速来试试!👉
9043 次点击
所在节点    分享发现
24 条回复
zhyim
226 天前
8 张 H100 和 2T 内存能跑完整版的 R1 吗? CPU 好像是 192 核的不知道啥型号
snowkylin
225 天前
@zhyim 8-bit 的吗,应该可以吧(可能得看 H100 是多少显存的版本),试试?
zhyim
224 天前
@snowkylin 是 80G 版本的,Q8 的不一定能跑起来,刚把模型下载完。。。
lifechan
212 天前
標記一下,跑滿做訓練得小 20W ?

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/1108393

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX