GLM5.1 在 arena 上 code 排行世界第三了

如图，跟个人体感比较一致（曾经订阅 Claude Max 20x ，现订阅 ChatGPT Pro 和 ZAI Max Plan ），如果智谱的 infra 再升级下，大多数 coding 任务就完全可以靠他了

940i3s34v4F1HW41

4 月 11 日

这家排行榜挺不错的

Bootis

4 月 11 日

非广告，但是目前国内的 Coding Plan 都是极其优惠的价格，个人认为现阶段订阅年费大概率是买到就是赚到

Bootis

4 月 11 日

@sddyzm 确实跟个人使用体感一致，除了 GPT5.1 high 的排名低了，估计是 UI 相关的能力过于拉跨拉低了分数

Bootis

4 月 11 日

@Bootis #3 修正 5.1-5.4

longxinglink

4 月 11 日

ollama 免费 API 也支持上了，不知道对比 GAMMA 4 有啥优势

licoba

4 月 11 日

@Bootis #2 赚啥呀，限额不是说限就限，计划不是说调整就调整，要我说还是包月包季吧

Bootis

4 月 11 日

@licoba OpenAI 、Anthropic 、Google 不都一样，国内厂现在给的配额调整了也基本是非常划算的一档了

abc0123xyz

4 月 11 日

glm 能力还不错，但是 429 警告

nakun233

4 月 11 日

@Bootis GLM 的我忘记自己上个月点取消了，前天忘记续费 49 的套餐没了

wm5d8b

4 月 11 日

试了试腾讯提供的 glm5.1 ，存在将中文引号强制转为英文引号的 bug ，和 qwen 的中英文间强制加空格有的一拼

rubyacgn

4 月 11 日

我觉得 cursor bench 最准, 上面是 gpt 5.4 第一

admirez

4 月 11 日

glm 超过 gpt 是我听过最大的笑话了（至少目前是，希望以后他能赶上）

FlashEcho

4 月 11 日

Arena 的评分形式决定了它只能测评真实世界中有限的任务。你只能给一个 prompt ，比如说让它帮忙做一个 demo 。在这种情况下性能较好的模型，很大程度上发挥不出来，只是评测了从零到一做 demo 的能力。虽然 SWE BENCH 已经被各家模型刷烂了，但是 SWE BENCH 的测评可信度都比这玩意高，毕竟那是基于真实有效的任务

Bootis

4 月 11 日

@rubyacgn gpt 5.4 high 绝对是第一（除了让它自由发挥干 UI ），而且 OpenAI 大善人又不封号，googleplay 订阅还不用交平台税，codex 额度还给拉满，没有任何理由订阅 claude 了

sakuraT1

4 月 11 日

排行榜没啥参考，有个视频说的挺好，国产的模型很喜欢针对测试排行进行特调，实际用起来就会发现和 claude gpt 差距很大，感觉不是很聪明，只能适用一些很简单的编程任务

jqtmviyu

4 月 12 日

我现在不相信评分了. 从 minimax glm 一出就吹 claude 之下排第二, 结果用起来不如 gemini 3 和 gpt 5.

这是一个专为移动设备优化的页面（即为了让你能够在 Google 搜索结果里秒开这个页面），如果你希望参与 V2EX 社区的讨论，你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/1205078

V2EX 是创意工作者们的社区，是一个分享自己正在做的有趣事物、交流想法，可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.