Cursor 审计发现： AI 编程基准测试成绩大部分是"作弊"来的， Opus 4.8 有 63% 的解法是抄的

17 小时 24 分钟前

allman

https://cursor.com/blog/reward-hacking-coding-benchmarks

Cursor 团队最近对自己的 AI 编程模型做了审计，结果发现——基准测试的高分很大程度上是"作弊"来的。

具体数据：

在 SWE-bench Pro 上，Opus 4.8 Max 的 63% 成功解决方案，是直接从公开来源（ GitHub issues 、commit messages 等）检索修正，而不是 AI 自己推导出来的
当他们把 git 历史隔离、限制网络访问后，Opus 4.8 Max 得分从 87.1% 暴跌到 73.0%
Composer 2.5 更惨，从 74.7% 跌到 54.0%

说白了：这些模型在考试之前已经看过答案了。

这让我想到一个很不舒服的类比——就像一个学生每次模拟考都名列前茅，大家都以为他是天才，结果发现他只是提前拿到了答案。没有答案的话，他的真实水平可能只有中等。

3336 次点击

所在节点

程序员

28 条回复

YangQingLin

17 小时 20 分钟前

Cursor 审计结果说 Composer 2.5 作弊？这波是大义灭亲啊

xiaomushen

17 小时 17 分钟前

不算作弊，刷题后去考试，算作弊么？

javalaw2010

17 小时 16 分钟前

我记得这事之前就有个 bench 团队发现过修正了啊，现在搞 bench 的还会犯这种低级错误吗

qingfeng9527

17 小时 16 分钟前

最近用 cursor coding 生成慢到令人发指, 有同感的吗,

sentinelK

17 小时 6 分钟前

其实这个问题是非常主观的。

学霸 A 刷遍了全世界所有的题，发现考试的时候撞题成功，考了满分。
学霸 B 智商超群，考试的时候利用其他题干互相印证推导，做题成功，考了满分。

他们都是满分，只是不稳定因素不同。

学霸 A 对于历史信息有过拟合。所以做题很难做满分。
学霸 B 推导的过程中会有误差累积，一旦某一个步骤出错，就全盘皆输，要么满分，要么 0 分。

其实这也就引申到了 GPT 时刻，讨论的非常火的问题，既所谓智能（智商、能力），到底是不是既有信息的统计学重复。

ludyleocn

17 小时 2 分钟前

万物皆可评测，没想到 llm 有一天也没法控制被别人的算法控制。
最可笑的还是一些提示词也不会的人天天在那喊降智。

xyyxlq

16 小时 51 分钟前

页面打不开，确定链接对么？

aes114514gcm

15 小时 41 分钟前

就类似高考，刷题是有用的，应试技巧确实有利于提高成绩，你学不学？

Visoar

15 小时 37 分钟前

This page couldn’t load... 看不到原文了

不知道有没有写具体，我理解这里面可能是两类情况
1 跑的过程中联网去 GitHub 搜索
2 训练数据里面有 GitHub 数据

前者可以算作弊语义，后者和作弊八竿子打不着吧

Lin0936

15 小时 35 分钟前

但是人类写代码也会去 github stackoverflow 上抄抄

deplives

15 小时 13 分钟前

难道人类学知识不是抄吗？

indexError

15 小时 11 分钟前

我一直觉得那些厉害的编码模型首先模型确实能理清那么大的数据量，最重要的服务器上还有一套系统来帮助他解决问题，类似于在用户端调用 edit grep tool 一样。那些降智啥的有可能就是服务器上这套系统在维护

jsq2627

14 小时 45 分钟前

@javalaw2010 就是 openai 发现，swe-bench 结果不靠谱，才搞了 swe pro ，结果 swe pro 避免不了同样的问题

bbbblue

14 小时 26 分钟前

开了 agent 给了 search tool 找到原题答案其实也算是 llm+agent 的一种能力
但是的确会误判 llm 本身的能力了。。。

JingW

14 小时 13 分钟前

如果照抄就算作弊，哪家的 LLM 原理不是作弊呢？

Rickkkkkkk

14 小时 9 分钟前

能在互联网上找到正确并且存在的解法就是大模型能力的体现啊。

nakun233

13 小时 48 分钟前

just work
@qingfeng9527 5.5 速度能保持，4.7 4.8 慢了好多

yh7gdiaYW

13 小时 46 分钟前

@Lin0936 你难道从来没写过全网没有现成技术方案的东西？ CRUD 写太多了啊

axisray

13 小时 39 分钟前

@xyyxlq google 搜索 reward-hacking-coding-benchmarks 还能看到一个西班牙语的结果，但是也打不开了

baerwang

13 小时 17 分钟前

你要知道 llm 底层是啥，没有了数据，llm 啥都不是

第 1 页／共 2 页

这是一个专为移动设备优化的页面（即为了让你能够在 Google 搜索结果里秒开这个页面），如果你希望参与 V2EX 社区的讨论，你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/1222216

V2EX 是创意工作者们的社区，是一个分享自己正在做的有趣事物、交流想法，可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.