讲道理,虽然 C-Eval 是中文的评估套件,GPT4 跌出前十,前面的都是国产大模型,这些勉强都能理解接受。
可是排名这一块,居然还有排名第 0 位的,这是几个意思。。。
附个网页链接: https://cevalbenchmark.com/static/leaderboard_zh.html
1
x86 235 天前
0 是 foreach 循环的时候从 0 开始了填的呗
|
2
luchenwei9266 OP @x86 那大概率又是招的临时工没经验,前端显示排名的时候忘了+1
|
3
Chad0000 235 天前 via iPhone 13
甭管他们怎么评,目前我只为 ChatGPT 付费。
|
4
leonhao 235 天前 1
赢麻了
|
5
BingoXuan 235 天前
看了一下测试内容,唯一想法是为何让大模型成为做题家呢?
|
6
jolanyu 235 天前 8
(注:* 表示该模型结果由 C-Eval 团队测试得到,而其他结果是通过用户提交获得。)
|
7
zapper 235 天前
考霸?要来干嘛
|
9
xlsepiphone 235 天前
榜单里面的,我只可能为 ChatGPT 付费。
|
10
SomeBodsy 235 天前 1
文心一言就是个人工智障,问啥都不知道,跟 chatGPT 最起码差 20 代
|
11
yigecaiji 235 天前 via Android
乐
|
12
idealhs 235 天前
我们中国真是太厉害辣
|
13
Eissen 235 天前 4
遥遥领先
|
14
BwNVlwSq 235 天前 via iPhone 1
太酷辣
|
15
bt7vip 235 天前 via Android
我也好奇,GPT4 的模型放出来了??他们可以调试??
|
16
excitedXXX 235 天前
遥遥领先!!!
|
17
Navee 235 天前
单走一个 6
|
18
cksspk 235 天前
遥遥领先
|
19
chendl111 235 天前 1
前面都是国内的,我严重怀疑测试的可靠性
|
20
yvescheung 235 天前 14
在朝鲜最幸福国家的排名中,前五分别是中国,朝鲜,古巴,伊朗和委内瑞拉,邪恶的美帝国主义排 200 多
|
21
vgbw 235 天前
国产,自研,弯道超车,遥遥领先
🤣 |
22
akira 235 天前 2
想吐槽点啥,但是槽点太多了,以至于不知道怎么说好
|
23
yiencho 234 天前
遥遥领先,遥遥领先!~~~
|
24
234ygg 234 天前 1
小镇做题家从人变模型了是吧😅
gpt4 是在规模部署的前提下实现当前性能的,不能以低于 20 刀/月的价格规模推广的就别来比了,田忌赛马也要让人见到马吧。 而且,最少也请做个网页版,并提供 API 。 |
25
weilongs 234 天前
这有点 不厚道吧?
|
26
h272377502 234 天前
@bt7vip 不是有 api 吗。。。
|
27
cherryas 234 天前
chatgpt 本来就对中国的人文历史社科胡编乱造,中国的测试打不过其他新模型很正常。
|
28
george2077 234 天前
野榜不看也罢
|
29
geomancy 234 天前
我自己训练的模型最牛 x ,它居然知道我的生活习惯,和别人的聊天记录什么的,其他商业大模型则不可以,甚至不知道我叫什么,我觉得我自己的模型理所当然的排名最前。
|
30
windyboy 234 天前
又一个安兔兔吗?
|
31
cheese 234 天前
这测试都是中文考证做题的,gpt4 玩不过很正常吧,gpt 的中文训练集相对英文本来就少,更别提这种专用形式的考试内容
|
32
hanqian 234 天前
要不是我真用过好多开源模型我就真信了,完全无视这些所谓 benchmark
|
33
timestamp24 234 天前
姑且相信这个评分(上传成绩的人都很诚实&测试结果可靠),这是在挑选中文做题家/背题家吗?全是选择题考察有一定的局限性。其实开放公测大家一用就知道各种模型几斤几两了。
|
34
chancat 233 天前 via Android
一方面判定别人家的东西违法,有害。自己又干不出来不是抄袭套皮就是自封第一,真的。很难进步。
|