C-Eval, GPT4 节节败退,跌出前十。。。。

248 天前
 luchenwei9266

讲道理,虽然 C-Eval 是中文的评估套件,GPT4 跌出前十,前面的都是国产大模型,这些勉强都能理解接受。

可是排名这一块,居然还有排名第 0 位的,这是几个意思。。。

附个网页链接: https://cevalbenchmark.com/static/leaderboard_zh.html

5657 次点击
所在节点    OpenAI
34 条回复
x86
248 天前
0 是 foreach 循环的时候从 0 开始了填的呗
luchenwei9266
248 天前
@x86 那大概率又是招的临时工没经验,前端显示排名的时候忘了+1
Chad0000
248 天前
甭管他们怎么评,目前我只为 ChatGPT 付费。
leonhao
248 天前
赢麻了
BingoXuan
248 天前
看了一下测试内容,唯一想法是为何让大模型成为做题家呢?
jolanyu
248 天前
(注:* 表示该模型结果由 C-Eval 团队测试得到,而其他结果是通过用户提交获得。)
zapper
248 天前
考霸?要来干嘛
TimePPT
248 天前
@jolanyu 哈哈哈正想吐槽来着
xlsepiphone
248 天前
榜单里面的,我只可能为 ChatGPT 付费。
SomeBodsy
248 天前
文心一言就是个人工智障,问啥都不知道,跟 chatGPT 最起码差 20 代
yigecaiji
248 天前
idealhs
248 天前
我们中国真是太厉害辣
Eissen
248 天前
遥遥领先
BwNVlwSq
248 天前
太酷辣
bt7vip
248 天前
我也好奇,GPT4 的模型放出来了??他们可以调试??
excitedXXX
248 天前
遥遥领先!!!
Navee
248 天前
单走一个 6
cksspk
248 天前
遥遥领先
chendl111
248 天前
前面都是国内的,我严重怀疑测试的可靠性
yvescheung
248 天前
在朝鲜最幸福国家的排名中,前五分别是中国,朝鲜,古巴,伊朗和委内瑞拉,邪恶的美帝国主义排 200 多

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/971319

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX