Cursor 审计发现: AI 编程基准测试成绩大部分是"作弊"来的, Opus 4.8 有 63% 的解法是抄的

17 小时 24 分钟前
 allman

https://cursor.com/blog/reward-hacking-coding-benchmarks

Cursor 团队最近对自己的 AI 编程模型做了审计,结果发现——基准测试的高分很大程度上是"作弊"来的

具体数据:

说白了:这些模型在考试之前已经看过答案了。

这让我想到一个很不舒服的类比——就像一个学生每次模拟考都名列前茅,大家都以为他是天才,结果发现他只是提前拿到了答案。没有答案的话,他的真实水平可能只有中等。

3336 次点击
所在节点    程序员
28 条回复
YangQingLin
17 小时 20 分钟前
Cursor 审计结果说 Composer 2.5 作弊?这波是大义灭亲啊
xiaomushen
17 小时 17 分钟前
不算作弊,刷题后去考试,算作弊么?
javalaw2010
17 小时 16 分钟前
我记得这事之前就有个 bench 团队发现过修正了啊,现在搞 bench 的还会犯这种低级错误吗
qingfeng9527
17 小时 16 分钟前
最近用 cursor coding 生成慢到令人发指, 有同感的吗,
sentinelK
17 小时 6 分钟前
其实这个问题是非常主观的。

学霸 A 刷遍了全世界所有的题,发现考试的时候撞题成功,考了满分。
学霸 B 智商超群,考试的时候利用其他题干互相印证推导,做题成功,考了满分。

他们都是满分,只是不稳定因素不同。

学霸 A 对于历史信息有过拟合。所以做题很难做满分。
学霸 B 推导的过程中会有误差累积,一旦某一个步骤出错,就全盘皆输,要么满分,要么 0 分。

其实这也就引申到了 GPT 时刻,讨论的非常火的问题,既所谓智能(智商、能力),到底是不是既有信息的统计学重复。
ludyleocn
17 小时 2 分钟前
万物皆可评测,没想到 llm 有一天也没法控制被别人的算法控制。
最可笑的还是一些提示词也不会的人天天在那喊降智。
xyyxlq
16 小时 51 分钟前
页面打不开,确定链接对么?
aes114514gcm
15 小时 41 分钟前
就类似高考,刷题是有用的,应试技巧确实有利于提高成绩,你学不学?
Visoar
15 小时 37 分钟前
This page couldn’t load... 看不到原文了

不知道有没有写具体,我理解这里面可能是两类情况
1 跑的过程中联网去 GitHub 搜索
2 训练数据里面有 GitHub 数据

前者可以算作弊语义,后者和作弊八竿子打不着吧
Lin0936
15 小时 35 分钟前
但是人类写代码也会去 github stackoverflow 上抄抄
deplives
15 小时 13 分钟前
难道人类学知识不是抄吗?
indexError
15 小时 11 分钟前
我一直觉得那些厉害的编码模型首先模型确实能理清那么大的数据量,最重要的服务器上还有一套系统来帮助他解决问题,类似于在用户端调用 edit grep tool 一样。那些降智啥的有可能就是服务器上这套系统在维护
jsq2627
14 小时 45 分钟前
@javalaw2010 就是 openai 发现,swe-bench 结果不靠谱,才搞了 swe pro ,结果 swe pro 避免不了同样的问题
bbbblue
14 小时 26 分钟前
开了 agent 给了 search tool 找到原题答案其实也算是 llm+agent 的一种能力
但是的确会误判 llm 本身的能力了。。。
JingW
14 小时 13 分钟前
如果照抄就算作弊,哪家的 LLM 原理不是作弊呢?
Rickkkkkkk
14 小时 9 分钟前
能在互联网上找到正确并且存在的解法就是大模型能力的体现啊。
nakun233
13 小时 48 分钟前
just work
@qingfeng9527 5.5 速度能保持,4.7 4.8 慢了好多
yh7gdiaYW
13 小时 46 分钟前
@Lin0936 你难道从来没写过全网没有现成技术方案的东西? CRUD 写太多了啊
axisray
13 小时 39 分钟前
@xyyxlq google 搜索 reward-hacking-coding-benchmarks 还能看到一个西班牙语的结果,但是也打不开了
baerwang
13 小时 17 分钟前
你要知道 llm 底层是啥,没有了数据,llm 啥都不是

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/1222216

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX