https://cursor.com/blog/reward-hacking-coding-benchmarks
Cursor 团队最近对自己的 AI 编程模型做了审计,结果发现——基准测试的高分很大程度上是"作弊"来的。
具体数据:
说白了:这些模型在考试之前已经看过答案了。
这让我想到一个很不舒服的类比——就像一个学生每次模拟考都名列前茅,大家都以为他是天才,结果发现他只是提前拿到了答案。没有答案的话,他的真实水平可能只有中等。
这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。
V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。
V2EX is a community of developers, designers and creative people.