GLM5.1 在 arena 上 code 排行世界第三了

4 月 11 日
 Bootis

如图,跟个人体感比较一致(曾经订阅 Claude Max 20x ,现订阅 ChatGPT Pro 和 ZAI Max Plan ),如果智谱的 infra 再升级下,大多数 coding 任务就完全可以靠他了

2830 次点击
所在节点    分享发现
16 条回复
940i3s34v4F1HW41
4 月 11 日
这家排行榜挺不错的
Bootis
4 月 11 日
非广告,但是目前国内的 Coding Plan 都是极其优惠的价格,个人认为现阶段订阅年费大概率是买到就是赚到
Bootis
4 月 11 日
@sddyzm 确实跟个人使用体感一致,除了 GPT5.1 high 的排名低了,估计是 UI 相关的能力过于拉跨拉低了分数
Bootis
4 月 11 日
@Bootis #3 修正 5.1-5.4
longxinglink
4 月 11 日
ollama 免费 API 也支持上了,不知道对比 GAMMA 4 有啥优势
licoba
4 月 11 日
@Bootis #2 赚啥呀,限额不是说限就限,计划不是说调整就调整,要我说还是包月包季吧
Bootis
4 月 11 日
@licoba OpenAI 、Anthropic 、Google 不都一样,国内厂现在给的配额调整了也基本是非常划算的一档了
abc0123xyz
4 月 11 日
glm 能力还不错,但是 429 警告
nakun233
4 月 11 日
@Bootis GLM 的我忘记自己上个月点取消了,前天忘记续费 49 的套餐没了
wm5d8b
4 月 11 日
试了试腾讯提供的 glm5.1 ,存在将中文引号强制转为英文引号的 bug ,和 qwen 的中英文间强制加空格有的一拼
rubyacgn
4 月 11 日
我觉得 cursor bench 最准, 上面是 gpt 5.4 第一
admirez
4 月 11 日
glm 超过 gpt 是我听过最大的笑话了 (至少目前是,希望以后他能赶上)
FlashEcho
4 月 11 日
Arena 的评分形式决定了它只能测评真实世界中有限的任务。你只能给一个 prompt ,比如说让它帮忙做一个 demo 。在这种情况下性能较好的模型,很大程度上发挥不出来,只是评测了从零到一做 demo 的能力。虽然 SWE BENCH 已经被各家模型刷烂了,但是 SWE BENCH 的测评可信度都比这玩意高,毕竟那是基于真实有效的任务
Bootis
4 月 11 日
@rubyacgn gpt 5.4 high 绝对是第一(除了让它自由发挥干 UI ),而且 OpenAI 大善人又不封号,googleplay 订阅还不用交平台税,codex 额度还给拉满,没有任何理由订阅 claude 了
sakuraT1
4 月 11 日
排行榜没啥参考,有个视频说的挺好,国产的模型很喜欢针对测试排行进行特调,实际用起来就会发现和 claude gpt 差距很大,感觉不是很聪明,只能适用一些很简单的编程任务
jqtmviyu
4 月 12 日
我现在不相信评分了. 从 minimax glm 一出就吹 claude 之下排第二, 结果用起来不如 gemini 3 和 gpt 5.

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/1205078

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX