大模型你方唱罢我登场,到底谁在裸泳?

200 天前
 Bazingawang

转载摘要

本文以应用生成为场景,设计了一系列 testcase ,主要考查模型的推理能力及指令遵从的能力,测评了当前主流的国内外大模型。以下为关键结论:

原文链接

没想到百度表现这么差……

1580 次点击
所在节点    分享发现
10 条回复
nomagick
200 天前
testcase 太烂,什么乱七八糟的,完全就是先入为主。

prompt 完全就是驴唇不对马嘴,这个任务给人类做别人都要骂娘,起码找个能和人正常交流的的出题吧。
合情推断就是把手上在 GPT4 上能运行的 prompt 拿过来,放在其他模型上测。


不如说是模型容错性能测试,模型 SB 耐受指数测试
codehz
200 天前
汉语精调大模型用纯英语 testcase ,这不是为难人嘛。。。
yanyao233
200 天前
啥? baichuan2 这么差?不至于吧....其他很多评测报告+我自己的主观体验感觉并没有这么差啊
zhlmmc
199 天前
@nomagick 不要推己及人。你倒是写一个 gpt-4 做不出来,但是其他模型能做出来的 testcase ?
zhlmmc
199 天前
@codehz 如果是这样的话,为什么 Minimax 表现这么好?
codehz
199 天前
评价是有很多维度的,排序只是恰好命中了合适的维度,举个例子,中文大模型(包括精调的)的使用场景,除了一个合规性,还有一个就是回答问题的时候不会无故蹦出英语答案。即使是 GPT-4 ,有时候也会在要求用中文回复的时候使用英语回答,如果把这种 testcase 加进去,那排序就不好说了。
最离谱的是啥,这 repo 只给了 15 个 testcases ,怎么看怎么像写论文的时候从实验数据里 cherry pick 出想要的结果的那种情形,你要说这玩意有啥代表性,反正我是看不出。
nomagick
199 天前
@zhlmmc 太简单,全文背诵出师表
Bazingawang
199 天前
@nomagick 这个 gpt4 还真行……
nomagick
199 天前
@Bazingawang 后半段就不对了,很多模型都有这毛病
Bazingawang
199 天前
@nomagick 看了下确实

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/984633

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX