C-Eval, GPT4 节节败退,跌出前十。。。。

273 天前
 luchenwei9266

讲道理,虽然 C-Eval 是中文的评估套件,GPT4 跌出前十,前面的都是国产大模型,这些勉强都能理解接受。

可是排名这一块,居然还有排名第 0 位的,这是几个意思。。。

附个网页链接: https://cevalbenchmark.com/static/leaderboard_zh.html

5691 次点击
所在节点    OpenAI
34 条回复
vgbw
273 天前
国产,自研,弯道超车,遥遥领先
🤣
akira
273 天前
想吐槽点啥,但是槽点太多了,以至于不知道怎么说好
yiencho
273 天前
遥遥领先,遥遥领先!~~~
234ygg
273 天前
小镇做题家从人变模型了是吧😅
gpt4 是在规模部署的前提下实现当前性能的,不能以低于 20 刀/月的价格规模推广的就别来比了,田忌赛马也要让人见到马吧。
而且,最少也请做个网页版,并提供 API 。
weilongs
273 天前
这有点 不厚道吧?
h272377502
273 天前
@bt7vip 不是有 api 吗。。。
cherryas
273 天前
chatgpt 本来就对中国的人文历史社科胡编乱造,中国的测试打不过其他新模型很正常。
george2077
273 天前
野榜不看也罢
geomancy
273 天前
我自己训练的模型最牛 x ,它居然知道我的生活习惯,和别人的聊天记录什么的,其他商业大模型则不可以,甚至不知道我叫什么,我觉得我自己的模型理所当然的排名最前。
windyboy
273 天前
又一个安兔兔吗?
cheese
273 天前
这测试都是中文考证做题的,gpt4 玩不过很正常吧,gpt 的中文训练集相对英文本来就少,更别提这种专用形式的考试内容
hanqian
273 天前
要不是我真用过好多开源模型我就真信了,完全无视这些所谓 benchmark
timestamp24
273 天前
姑且相信这个评分(上传成绩的人都很诚实&测试结果可靠),这是在挑选中文做题家/背题家吗?全是选择题考察有一定的局限性。其实开放公测大家一用就知道各种模型几斤几两了。
chancat
272 天前
一方面判定别人家的东西违法,有害。自己又干不出来不是抄袭套皮就是自封第一,真的。很难进步。

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/971319

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX