本地部署 GLM-5.2 的门槛太高了，根本玩不起！

9 小时 13 分钟前

beginor

智谱最近发布的 GLM-5.2 口碑很好，于是想在算力服务器上试一下，结果发现，门槛太高了，根本玩不起！

前后尝试了两个版本，分别是：

1. unsloth 的[UD-Q4_K_XL 量化版本]( https://huggingface.co/unsloth/GLM-5.2-GGUF/tree/main/UD-Q4_K_XL) <https://huggingface.co/unsloth/GLM-5.2-GGUF/tree/main/UD-Q4_K_XL>
2. 智谱官方的[FP8 量化版本]( https://huggingface.co/zai-org/GLM-5.2-FP8) <https://huggingface.co/zai-org/GLM-5.2-FP8>

先说一下 UD-Q4_K_XL 量化版本，下载下来的 gguf 文件共 436G ，4 张 H20 （共 560G 显存），编译最新的 llama.cpp 来运行，结果发现只有 20 ～ 30tokens/秒，更别说并发访问了，基本没法用；

然后是 FP8 量化版本，权重文件共 704G ，8 张 H20 （共 1.1T 显存），下载最新的 vllm 来运行，结果如下：

1. 在上下文类型也是 fp8 的情况下，8 张 H20 ，1.1TB 显存，居然无法开启 1m 上下文；
2. 将上下文长度设置为 384k 之后，vllm 启动提示 1.3 个并发，将上下文长度设置为 256k ，vllm 启动提示 2.5 个并发；
3. 输出大概有 50tokens/秒，吐字速度算还可以；
4. 3 个 claude code 同时连接使用，就能感觉到明显卡顿；

从 vllm 的启动日志看，glm-5.2 的缓存架构还是基于 deepseek 3.2 的，显存利用效率比 deepseek4 甚至 qwen3.5/3.6 差很多！

以上只是对本地部署测试 glm-5.2 的初步印象，劝大家如果没有 h200/b300 级别的装备的话，还是算了吧！😂

2673 次点击

所在节点

24 条回复

flypei

9 小时 8 分钟前

网上还有说用 mac studio 部署的，4 张 H20 都玩不转，mac studio 真的行么

Hconk

8 小时 55 分钟前

@flypei 四台 512G 内存的 Mac studio 跑 FP8 的应该没什么问题，token 速度看上下文有多大了，小的话 20 多 TPS 应该能跑，大了估计就几 TPS ，闲鱼有些人卖的自部署接口就是用这个整的

shmilypeter

8 小时 8 分钟前

@Hconk 咸鱼还有人卖自部署？牛逼，小黄鱼真的是什么都有的卖啊。估计是那些读博士的卖实验室的资源。

我算过了，自部署这一块靠卖 token 是不可能回本的，自部署扛不住几个并发的。

Hconk

8 小时 2 分钟前

@shmilypeter mac 部署比 nv 的那些 h20/h800 之类的比起来成本低了太多，1.5T 显存 nv 卡少说两三百万能下来，用 mac 统一显存 512g 十来万一台

shmilypeter

7 小时 46 分钟前

@Hconk 现在问题是 512G 内存的 Mac Studio 有价无市了，要是按照以前的价格，搞四台 Mac Studio 部署一个 FP8 的 GLM-5.2 ，供一个十人团队没啥问题的，律所这样的地方是有本地化需求的。

uselesswater

7 小时 5 分钟前

要是干个满血的下来，那得 200 多万吧！

KumaAPI

7 小时 2 分钟前

事实证明不是工作刚需的情况没什么必要本地部署模型使用就算是租服务器开销也不小

2658601135zzh

6 小时 56 分钟前

自部署太费钱费时间了，有那钱都可以正价充值 api 爽蹬了

YaakovZiv

6 小时 47 分钟前

以前还能白嫖云主机平台的 GPU 服务器，现在 GPU 服务器热销，已经基本没法白嫖，必须是先有商务合同，才能白嫖一段时间。我现在直接自己卖临时的 GPU 云主机做部署测试。

damontian

6 小时 47 分钟前

现在这个阶段，自己部署是真不划算

root71370

6 小时 29 分钟前

所以是不是证明官方部署的 api 也是亏本的

bwnjnOEI

6 小时 16 分钟前

没试试 sglang 吗？话说你要想部署生产级响应的需要把所有参数都要搞明白，玩弄多卡高并发的 vllm/sglang 难度不亚于 k8s

slowgen

5 小时 23 分钟前

本地跑大模型还得是 Blackwell 架构的 RTX Pro 6000 ，直接上 NVFP4 量化，真的就一代架构一代神

pikay

5 小时 11 分钟前

话说上午的 GLM Plan 有人抢得到吗？

beginor

4 小时 55 分钟前

@uselesswater 按现在的价格趋势，200 万估计不够了

beginor

4 小时 54 分钟前

@slowgen RTX 6000 Pro 刚出来时 6 万，现在翻倍都不止了

beginor

4 小时 52 分钟前

@bwnjnOEI sgl 更复杂，虽然有官方的指南，时间有限，只测试了 llama.cpp 和 vllm ，这两个都好熟悉

yatseni

4 小时 30 分钟前

起步上最新模型，可不是投入大吗

raycool

4 小时 27 分钟前

现在 H200 贵的离谱

emric

4 小时 12 分钟前

我们公司在 HK H200 部署了 GLM5 升级 GLM5.2 也有点卡。

第 1 页／共 2 页

这是一个专为移动设备优化的页面（即为了让你能够在 Google 搜索结果里秒开这个页面），如果你希望参与 V2EX 社区的讨论，你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/1223460

V2EX 是创意工作者们的社区，是一个分享自己正在做的有趣事物、交流想法，可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX