GLM-5 开源:从代码到工程, Agentic Engineering 时代最好的开源模型

12 小时 28 分钟前
 Zhipuai

今天,我们上线并开源 GLM-5 。

学界与业界正逐渐形成一种共识,大模型从写代码、写前端,进化到写工程、完成大任务,即从“Vibe Coding”变革为“Agentic Engineering”。

GLM-5 正是这一变革的产物:在 Coding 与 Agent 能力上,取得开源 SOTA 表现,在真实编程场景的使用体感逼近 Claude Opus 4.5 ,擅长复杂系统工程与长程 Agent 任务。

在全球权威的 Artificial Analysis 榜单中,GLM-5 位居全球第四、开源第一。

更大基座,更强智能

GLM-5 全新基座为从“写代码”到“写工程”的能力演进提供了坚实基础:

Coding 能力:对齐 Claude Opus 4.5

GLM-5 在编程能力上实现了对 Claude Opus 4.5 的对齐,在业内公认的主流基准测试中取得开源模型 SOTA 分数。在 SWE-bench-Verified 和 Terminal Bench 2.0 中分别获得 77.856.2 的开源模型 SOTA 分数,性能超过 Gemini 3 Pro 。

2026 年,大模型需要从“会写”走到“会完成”,尤其是端到端完成大型任务。GLM-5 是一个“系统架构师”,它不仅为开发精美的 Demo 而生,更为稳定交付生产结果而生。

在内部 Claude Code 评估集合中,GLM-5 在前端、后端、长程任务等编程开发任务上显著超越 GLM-4.7 (平均增幅超过 20%),能够以极少的人工干预自主完成 Agentic 长程规划与执行、后端重构和深度调试等系统工程任务,使用体感逼近 Opus 4.5 。

Agent 能力:SOTA 级长程任务执行

GLM-5 在 Agent 能力上实现开源 SOTA ,在多个评测基准中取得开源第一:在 BrowseComp (联网检索与信息理解)、MCP-Atlas (工具调用和多步骤任务执行)和 τ²-Bench (复杂多工具场景下的规划和执行)均取得最佳表现。

在衡量模型经营能力的 Vending Bench 2 中,GLM-5 获得开源模型第一的表现。Vending Bench 2 要求模型在一年期内经营一个模拟的自动售货机业务,GLM-5 最终账户余额达到 4432 美元,经营表现接近 Claude Opus 4.5 ,展现了出色的长期规划和资源管理能力。

这些能力是 Agentic Engineering 的核心:模型不仅要能写代码、完成工程,还要能在长程任务中保持目标一致性、进行资源管理、处理多步骤依赖关系,成为真正的 Agentic Ready 基座模型。

国产芯片支持线上推理集群

GLM 系列模型受到全球开发者喜爱,在 GLM Coding Plan 全球爆量后,我们不得不启动限售活动。本次 GLM-5 的上线依托众多国产芯片有力保障了线上服务的稳定和高效。

目前,GLM-5 已完成与华为昇腾、摩尔线程、寒武纪、昆仑芯、沐曦、燧原、海光等国产算力平台的深度推理适配。通过底层算子优化与硬件加速,GLM-5 在国产芯片集群上已经实现高吞吐、低延迟的稳定运行。

Agentic Engineering 典型场景

点击或在浏览器输入:showcase.z.ai,即可查看所有案例。

开源与使用方式

即日起,GLM-5 在 Hugging Face 与 ModelScope 平台同步开源,模型权重遵循 MIT License 。

GLM-5 已经纳入 Max 用户套餐,Pro 将尽快在 5 天内支持,接下来我们将逐步扩大范围,尽力让更多用户体验并使用 GLM-5 。GLM Coding Plan 支持 Claude Code 、OpenCode 等主流开发工具。

GLM Coding Plan 同步升级 Agentic Engineering 体验:


1. 官方 API 接入

2. 在线体验

3. 开源链接

4. Agent

5. Blog

1944 次点击
所在节点    程序员
28 条回复
shakaraka
12 小时 27 分钟前
试用套餐有不
shakaraka
12 小时 26 分钟前
code plan 的试用 GLM-5 的
Tink
12 小时 13 分钟前
lite 和 pro 都不支持
donggua997
12 小时 9 分钟前
比参数没输过,实际体验没赢过。
enano
12 小时 7 分钟前
开了 lite 像路边一条
whbbxw
12 小时 5 分钟前
你们自己用自己的模型吗? 4.6 和 5.3 也参与一下测试吧。
donggua997
12 小时 2 分钟前
你真的确定配与 gpt 、gemini 、claude 放一起比吗 ???
mashimaroinfo1
12 小时 1 分钟前
篇幅好长, 能力几何?
opeth
11 小时 55 分钟前
先看看隔壁帖子对你们 coding plan 的背刺的吐槽吧
hugodotlau
11 小时 53 分钟前
来吹半天都没点福利抽奖么?这广告真白看了
zhuangpipi
11 小时 28 分钟前
不涨价还想购入,涨价确实性价比比较低了
qaq13037
11 小时 9 分钟前
跑分嘎嘎猛,实际用起来差很多
iorilu
10 小时 57 分钟前
我一直奇怪, 100 多可以上车正规的 google one 会员, 用 antigravity 不比这个强, 更别说谷歌还有很多其他 ai 服务?
flowerwow0316
10 小时 57 分钟前
你说是就是了
Muninn
10 小时 50 分钟前
现在这个价格完全没有竞争力了。更何况口碑已经完全坏了,超卖,水军营销,限速,降智,随意修改订阅协议,毫无诚信,吃相难看。
ProphetN
10 小时 35 分钟前
吃相太难看了,国产模型商永久拉黑这家吧。
iden
10 小时 31 分钟前
...评论哪儿来的那么大偏见。刷分不都是闭源模型常见的操作吗?
众所周知开源模型刷分风险更低,也能被吐槽高分低能?
tlerbao
10 小时 26 分钟前
吹你家死牛逼
Plutooo
9 小时 12 分钟前
是蒸馏模型吗
felixcode
9 小时 0 分钟前
用起来怎么样,能不能和 gpt 和 opus 比,自己心里没数吗?

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/1192496

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX