本地部署 GLM-5.2 的门槛太高了,根本玩不起!

9 小时 13 分钟前
 beginor
智谱最近发布的 GLM-5.2 口碑很好,于是想在算力服务器上试一下,结果发现,门槛太高了,根本玩不起!

前后尝试了两个版本,分别是:

1. unsloth 的[UD-Q4_K_XL 量化版本]( https://huggingface.co/unsloth/GLM-5.2-GGUF/tree/main/UD-Q4_K_XL) <https://huggingface.co/unsloth/GLM-5.2-GGUF/tree/main/UD-Q4_K_XL>
2. 智谱官方的[FP8 量化版本]( https://huggingface.co/zai-org/GLM-5.2-FP8) <https://huggingface.co/zai-org/GLM-5.2-FP8>

先说一下 UD-Q4_K_XL 量化版本,下载下来的 gguf 文件共 436G ,4 张 H20 (共 560G 显存),编译最新的 llama.cpp 来运行,结果发现只有 20 ~ 30tokens/秒,更别说并发访问了,基本没法用;

然后是 FP8 量化版本,权重文件共 704G ,8 张 H20 (共 1.1T 显存),下载最新的 vllm 来运行,结果如下:

1. 在上下文类型也是 fp8 的情况下,8 张 H20 ,1.1TB 显存,居然无法开启 1m 上下文;
2. 将上下文长度设置为 384k 之后,vllm 启动提示 1.3 个并发,将上下文长度设置为 256k ,vllm 启动提示 2.5 个并发;
3. 输出大概有 50tokens/秒,吐字速度算还可以;
4. 3 个 claude code 同时连接使用,就能感觉到明显卡顿;

从 vllm 的启动日志看,glm-5.2 的缓存架构还是基于 deepseek 3.2 的,显存利用效率比 deepseek4 甚至 qwen3.5/3.6 差很多!

以上只是对本地部署测试 glm-5.2 的初步印象,劝大家如果没有 h200/b300 级别的装备的话,还是算了吧!😂
2673 次点击
所在节点    Local LLM
24 条回复
flypei
9 小时 8 分钟前
网上还有说用 mac studio 部署的,4 张 H20 都玩不转,mac studio 真的行么
Hconk
8 小时 55 分钟前
@flypei 四台 512G 内存的 Mac studio 跑 FP8 的应该没什么问题,token 速度看上下文有多大了,小的话 20 多 TPS 应该能跑,大了估计就几 TPS ,闲鱼有些人卖的自部署接口就是用这个整的
shmilypeter
8 小时 8 分钟前
@Hconk 咸鱼还有人卖自部署?牛逼,小黄鱼真的是什么都有的卖啊。估计是那些读博士的卖实验室的资源。

我算过了,自部署这一块靠卖 token 是不可能回本的,自部署扛不住几个并发的。
Hconk
8 小时 2 分钟前
@shmilypeter mac 部署比 nv 的那些 h20/h800 之类的比起来成本低了太多,1.5T 显存 nv 卡少说两三百万能下来,用 mac 统一显存 512g 十来万一台
shmilypeter
7 小时 46 分钟前
@Hconk 现在问题是 512G 内存的 Mac Studio 有价无市了,要是按照以前的价格,搞四台 Mac Studio 部署一个 FP8 的 GLM-5.2 ,供一个十人团队没啥问题的,律所这样的地方是有本地化需求的。
uselesswater
7 小时 5 分钟前
要是干个满血的下来,那得 200 多万吧!
KumaAPI
7 小时 2 分钟前
事实证明不是工作刚需的情况没什么必要本地部署模型使用 就算是租服务器开销也不小
2658601135zzh
6 小时 56 分钟前
自部署太费钱费时间了,有那钱都可以正价充值 api 爽蹬了
YaakovZiv
6 小时 47 分钟前
以前还能白嫖云主机平台的 GPU 服务器,现在 GPU 服务器热销,已经基本没法白嫖,必须是先有商务合同,才能白嫖一段时间。我现在直接自己卖临时的 GPU 云主机做部署测试。
damontian
6 小时 47 分钟前
现在这个阶段,自己部署是真不划算
root71370
6 小时 29 分钟前
所以是不是证明官方部署的 api 也是亏本的
bwnjnOEI
6 小时 16 分钟前
没试试 sglang 吗?话说你要想部署生产级响应的需要把所有参数都要搞明白,玩弄多卡高并发的 vllm/sglang 难度不亚于 k8s
slowgen
5 小时 23 分钟前
本地跑大模型还得是 Blackwell 架构的 RTX Pro 6000 ,直接上 NVFP4 量化,真的就一代架构一代神
pikay
5 小时 11 分钟前
话说上午的 GLM Plan 有人抢得到吗?
beginor
4 小时 55 分钟前
@uselesswater 按现在的价格趋势,200 万估计不够了
beginor
4 小时 54 分钟前
@slowgen RTX 6000 Pro 刚出来时 6 万,现在翻倍都不止了
beginor
4 小时 52 分钟前
@bwnjnOEI sgl 更复杂,虽然有官方的指南,时间有限,只测试了 llama.cpp 和 vllm ,这两个都好熟悉
yatseni
4 小时 30 分钟前
起步上最新模型,可不是投入大吗
raycool
4 小时 27 分钟前
现在 H200 贵的离谱
emric
4 小时 12 分钟前
我们公司在 HK H200 部署了 GLM5 升级 GLM5.2 也有点卡。

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/1223460

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX