阿里巴巴与中山大学花了 100 亿 token 证明目前 ai 编程无法承担长期任务

论文地址： https://arxiv.org/abs/2603.03823 新闻总结版： https://baijiahao.baidu.com/s?id=1859905657933003430

和我个人的感觉差不多，还是只能当作提高效率的工具，对于大的项目来说还是无法做到完全交给 AI

3 月 18 日

无论什么规模的项目都不该完全交给 AI ，人最终还是要 review 代码的，未来很长一段时间都会这样。如果模型进步到可以不用人 review 代码的地步，SWE 就完蛋了。现在的顶级模型已经很好了，即使模型进步停滞也无所谓，门槛太低反而不好。

lyhiving

3 月 18 日

而且 100 亿 token 才干多少事，普通人正常跑每天都花大几十亿 token 甚至更多。
两个机构花了 100 亿 token 就敢下结论？
不对，不对的。

jackOff

3 月 18 日

人类就是上下限最大的人工智能，AI 这玩意永远都是资料库属性，只不过更便捷用户友好，决策层永远是人

Inn0Vat10n

3 月 18 日

没有"人类"对比, 而且测试数据来自于 github 的优质项目,一般程序员我感觉是不如 claude opus4.6 的

loolac

3 月 18 日

项目发展以后肯定会选择定期重构来替代维护旧架构代码。反正都是 AI 去做，相对的效率还是有的，项目后期可以等比例扩展 AI + 技术人员的规模。

FH0

3 月 18 日

我提供一个角度，他们研究是否能够承担长期任务，意味着中短期任务已经没问题了

jko123

3 月 18 日

怎么合理操作 ai 和给怎么给员工合理分配工作差不多

jadeborner

3 月 18 日

这种新闻看都不要看

YanSeven

3 月 18 日

"Our extensive evaluation of 18 models from 8 different providers reveals a consistent pattern: within the same provider family, newer models always achieve higher scores, with models released after 2026 showing markedly larger gains than their predecessors. This suggests that the code capabilities of current LLMs are rapidly evolving beyond static bug-fixing toward sustained, long-term code maintenance. Among all evaluated models, the Claude Opus series demonstrates a commanding lead throughout the entire observation period, with GLM-5 also standing out as a strong performer.
我们对来自 8 家不同供应商的 18 个模型进行了广泛评估，发现一个稳定规律：在同一供应商系列中，新发布的模型始终获得更高评分，且 2026 年后发布的模型相较前代提升幅度尤为显著。这表明当前 LLMs 的代码能力正快速从静态缺陷修复向持续、长期的代码维护演进。在所有评估模型中，Claude Opus 系列在整个观察周期内保持显著领先优势，GLM-5 同样表现突出。
"
严重怀疑 GLM 提供了研究资金🐶

jixiafu

3 月 18 日

claude 果然是断崖式领先啊，这份论文恰恰证明 claude 完全可以承担长期任务，夯爆了

Rrrrrr

3 月 18 日

就算不能完全取代人类，也不耽误现在裁员潮

iorilu

3 月 18 日

@YanSeven 很显然就是为了发这句话才搞得评测

MuyuQ

3 月 18 日

@iorilu 虽然可能是广告，但也确实是实话。除了 CC ，其他全是开源模型，GLM5 和 KIMI 确实比其他的开源模型好一些。这个榜单还有个问题，codex 没有测。

MuyuQ

3 月 18 日

@Alias4ck 什么时候微软用 claude 或者 ChatGPT 把屎山 Windows 重构了再说吧。linux 是开源的，早就被 claude 吃进去多少次了。

jsq2627

3 月 18 日

这个模型评分和个人体感确实比较接近

evan9527

3 月 18 日

今天不行那就明天，明天不行就下周/下个月，一切只是时间问题而已。

jchencode

3 月 18 日

。。。你要不看看 Anthropic CEO 搞了个测试，花了 2 周的时间，完全用 Claude 写了一个小型浏览器？

yoshiyuki

3 月 18 日

GPT 只用到了 5.2 ，而且从实验来看，claude Opus4.6 已经非常强的，实验里缺少的 5.3codex 和 5.4 更强
这个论文在我看来非常倾向于支持 AI 可以担任长期编程的任务，要明白一点，这些大模型在接下来的月份里只会越来越强，就 Opus4.6 的得分，推算 gpt5.3 和 gpt5.4 的得分来看，即使是现在也已经很接近目标，遑论半年乃至一年以后

v2hh

3 月 18 日

会不会是人无法下发给 ai 一个完整的长期任务

dudubaba

3 月 18 日

但是不得不承认对于 crud 项目完全绰绰有余了，残酷的是大家做的编程任务至少 80% 都是 crud 项目。

这是一个专为移动设备优化的页面（即为了让你能够在 Google 搜索结果里秒开这个页面），如果你希望参与 V2EX 社区的讨论，你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/1199231

V2EX 是创意工作者们的社区，是一个分享自己正在做的有趣事物、交流想法，可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.