我给 AI 测了次“基因”,发现它也爱磨洋工

1 天前
 dengsidi4ai
最近在折腾 DunCrew (我那款本地跑的 AI Agent )时,我攒了 300 多条真实的任务记录。本来只是想抠门省点 Token 钱,结果分析完发现,AI 犯蠢的行为模式简直跟人类上班摸鱼如出一辙。

我把 Agent 的行为简化成四种“基本动作”:看(探索)、干(执行)、想(规划)、查(验证)。连起来看,每个任务就像一段 DNA 序列。

1. 它是怎么把你的 Token 烧掉的?
通过数据模型分析,我抓住了几个“现行犯”:

反复横跳( P-X-P 模式): 这种最致命。AI 先想一下,去翻翻文件,回来又想一下……就是不动手。一旦陷入这种“想了看,看了想”的死循环,任务成功率直接暴跌 10%。

迷之自信( E→V 缺失): 只有 2% 的情况下,AI 跑完代码会去检查结果。绝大多数时候是“写完就跑”,根本不看程序报错没,这是典型的系统性“心大”。

想太多( P-ratio 过高): 数据证明,“过度思考”是失败的征兆。如果一个任务里 AI 都在自我反思、反复规划,那这活儿基本就交代了,它是真的在原地踏步。

2. 解决办法:给 AI 装个“防沉迷”开关
我做了一个叫 Governor 的拦截器。它完全不费 Token ,原理简单粗暴:盯着 AI 的动作序列看。

看到它连续翻文件夹(探索过度),直接喊停。

看到它刚运行完命令想溜,加一个轻轻的干预:“喂,检查一下结果再走!”

疗效显著:成功率从 88% 提到了 94%,最重要的是,Token 成本直接砍掉了一半(-44%)。换到 SWE-agent 轨迹上测,这些规律依然准得惊人。

分析工具已经开源了:

工具包:github.com/FatBy/base-sequence-toolkit

更多细节看这里:duncrew.com

大家在搞 Agent 避坑时,还有什么奇招能治这种“无效循环”吗?欢迎交流!
206 次点击
所在节点    分享创造
0 条回复

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/1203996

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX