阿里巴巴与中山大学花了 100 亿 token 证明目前 ai 编程无法承担长期任务

3 月 18 日
 jiirouwei

论文地址: https://arxiv.org/abs/2603.03823 新闻总结版: https://baijiahao.baidu.com/s?id=1859905657933003430

和我个人的感觉差不多,还是只能当作提高效率的工具,对于大的项目来说还是无法做到完全交给 AI

8769 次点击
所在节点    职场话题
60 条回复
LoNeZ
3 月 18 日
哦 这图画得 不还是 Anthropic 遥遥领先吗
Simle100
3 月 18 日
不要低估了 AI 的进化速度啊。12 年的时候 AI 刚刚学会识图,16 年的时候在围棋上打败了人类,22 年 ChatGPT 掀起了 LLMs 的浪潮,再到如今的 Claude Code 基本可以让你的想法快速变成一个可用的产品。这 10 几年的进步速度是巨快的。如今 AI 的发展依然在按照 OpenAI 的路线图在走:聊天机器人、推理者、智能体、创新者和组织者。我想等 AI 的发展到创新者和组织者这步,一定会激起更大的社会结构变动。人类也许真的是硅基生物的 boot loader 。
aprilwei
3 月 18 日
国内的 deepseek 、qwen 、kimi 、glm 我都用过,glm-5 确实比较好,目前在开发智能体,toolCall & function Call 的形式
maolon
3 月 19 日
100 亿其实也不多啊,我光是一个 codex 都跑了 400 亿了...
另外凡是觉得长期任务不行的都可以看看 openai 说了啥: https://openai.com/zh-Hans-CN/index/harness-engineering
阿里说不行,openai 说行,你说有没有一种可能其中一个有点菜
LandCruiser
3 月 19 日
@maolon anthropic 的 CEO 还说自家 AI 有意识了,怎么评价,是 openAI 有点菜还是?
maolon
3 月 19 日
@LandCruiser 你看,人的原话是:“we don't know if the models are conscious”, 而不是 “models are conscious”,
“不要断章取义” “要断章取义”
lisxour
3 月 19 日
@workshop 你别管对不对,你就说快不快就完事了是吧
Danta0
3 月 19 日
AI:三十年河东,三十年河西。莫欺少年穷!
wuxinling
3 月 19 日
够用就行,ai 帮忙写小的东西,人负责把积木搭起来,这个积木会越来越大,挺不错的。
实际的业务系统绝大多数也不是需要长期做的大型项目,都是草台班子。
Torpedo
3 月 19 日
我觉得这里要分场景
大厂很多业务复杂,同时需要多人协作,更需要考虑架构的耦合等全局视角
但是小规模特别是一人开发团队,写一个新产品还是不怎么需要的
houskii
3 月 19 日
@LiuJiang 那个测试结果如果你细看了就知道,核心的能力全是用一堆现有的库拼出来的,而且功能还有一堆问题完全没法商业化用。
KeyboardManAnAn
3 月 19 日
"从下图可以发现,同一厂商的大模型新版本普遍稳定高于前一代,且 2026 年后的跃升幅度显著扩大,EvoScore 更高。这表明,当前大模型的代码能力正从静态缺陷修复,快速向持续、长期的代码维护演进。" 文章中的这句话, 就证明了本文的观点极有可能会快速过时. 🤪
Alchemistboy
3 月 19 日
用 claude code ,确实有时候会感觉上下文长了之后,代码越来越冗余了
sampeng
3 月 19 日
这个结论我是认可的。直觉和经验来看,长期自己动是不可能的。什么 ai 自己检查 bug 自己修。吹这个的都是连 AI 是一个概率机器都不知道。但能提高效率这件事是没问题的。
peng7534211
3 月 19 日
都得出结论了,那还花这么多钱干嘛,傻子都知道要止损,大厂不知道?
lesismal
3 月 19 日
“目前无法”,结论没问题。
sakura1988
3 月 19 日
@zmal 审题
unco020511
3 月 19 日
说的是除 claude gpt gemini 三家之外的模型无法胜任吧
rudolphbrowne8
3 月 19 日
AI: 我不到啊,只看见人们吵作一团。
LandCruiser
3 月 19 日
@maolon 这叫断章取义?我不知道我们的模型是否具有意识,这句话的重点到底是在不知道还是模型具有意识,我觉得是个人都知道这个 CEO 在搞一些小话术。你不认可那就随便吧

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/1199231

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX