GLM5.1 在 arena 上 code 排行世界第三了

12 小时 22 分钟前
 Bootis

如图,跟个人体感比较一致(曾经订阅 Claude Max 20x ,现订阅 ChatGPT Pro 和 ZAI Max Plan ),如果智谱的 infra 再升级下,大多数 coding 任务就完全可以靠他了

904 次点击
所在节点    分享发现
15 条回复
sddyzm
12 小时 21 分钟前
这家排行榜挺不错的
Bootis
12 小时 19 分钟前
非广告,但是目前国内的 Coding Plan 都是极其优惠的价格,个人认为现阶段订阅年费大概率是买到就是赚到
Bootis
12 小时 15 分钟前
@sddyzm 确实跟个人使用体感一致,除了 GPT5.1 high 的排名低了,估计是 UI 相关的能力过于拉跨拉低了分数
Bootis
12 小时 15 分钟前
@Bootis #3 修正 5.1-5.4
longxinglink
12 小时 11 分钟前
ollama 免费 API 也支持上了,不知道对比 GAMMA 4 有啥优势
licoba
11 小时 14 分钟前
@Bootis #2 赚啥呀,限额不是说限就限,计划不是说调整就调整,要我说还是包月包季吧
Bootis
11 小时 0 分钟前
@licoba OpenAI 、Anthropic 、Google 不都一样,国内厂现在给的配额调整了也基本是非常划算的一档了
abc0123xyz
7 小时 29 分钟前
glm 能力还不错,但是 429 警告
nakun233
7 小时 21 分钟前
@Bootis GLM 的我忘记自己上个月点取消了,前天忘记续费 49 的套餐没了
wm5d8b
6 小时 50 分钟前
试了试腾讯提供的 glm5.1 ,存在将中文引号强制转为英文引号的 bug ,和 qwen 的中英文间强制加空格有的一拼
rubyacgn
6 小时 17 分钟前
我觉得 cursor bench 最准, 上面是 gpt 5.4 第一
admirez
5 小时 40 分钟前
glm 超过 gpt 是我听过最大的笑话了 (至少目前是,希望以后他能赶上)
FlashEcho
4 小时 34 分钟前
Arena 的评分形式决定了它只能测评真实世界中有限的任务。你只能给一个 prompt ,比如说让它帮忙做一个 demo 。在这种情况下性能较好的模型,很大程度上发挥不出来,只是评测了从零到一做 demo 的能力。虽然 SWE BENCH 已经被各家模型刷烂了,但是 SWE BENCH 的测评可信度都比这玩意高,毕竟那是基于真实有效的任务
Bootis
2 小时 9 分钟前
@rubyacgn gpt 5.4 high 绝对是第一(除了让它自由发挥干 UI ),而且 OpenAI 大善人又不封号,googleplay 订阅还不用交平台税,codex 额度还给拉满,没有任何理由订阅 claude 了
sakuraT1
1 小时 36 分钟前
排行榜没啥参考,有个视频说的挺好,国产的模型很喜欢针对测试排行进行特调,实际用起来就会发现和 claude gpt 差距很大,感觉不是很聪明,只能适用一些很简单的编程任务

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/1205078

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX