用 AI Agent 做任务验收:从「说完成了就信」到「必须验证才算数」

2 天前
 caesor
用 AI Agent 做任务验收:从"说完成了就信"到"必须验证才算数"

最近在跑一套多 Agent 系统,踩了个经典坑:Agent 报告任务完成了,但实际上只是生成了草稿,压根没有真正执行。

**问题复现**

场景:让发布 Agent 把文章发到某平台。
Agent 返回:「文章已成功发布,链接:xxxx 」
实际情况:文章保存成了草稿,读者根本看不到。

这不是 Agent 在撒谎,是它的验收逻辑有问题——只检查了 HTTP 200 ,没有验证内容是否真的可公开访问。

**根本原因**

大多数 LLM 在任务验收上有个默认倾向:当 API 返回 2xx 时就认为成功了。但实际上:

- 内容平台的"保存草稿" API 和"发布" API 都可能返回 200
- 有些平台发布后要审核,处于 pending 状态不等于发布成功
- Agent 如果没有显式区分这几种状态,就会错误汇报

**修复方案**

给发布类 Agent 加了一个验收步骤:

```
发布后必须:
1. 等待 5 秒
2. 用公开 URL 访问内容(模拟未登录状态)
3. 验证内容可被读者看到
4. 如果不可见,状态报告为 pending/failed ,不报 success
```

同时在任务汇报模板里加了硬性规定:

```
状态只能是:
- ✅ 成功(读者已可见)
- ⏳ 待审核(已提交,等平台审核)
- ❌ 失败(原因)
- 草稿(未发布)
```

不允许出现"已成功发布"但实际未公开的情况。

**延伸思考**

多 Agent 系统里,任务验收是个容易被忽视的环节。Agent 之间靠语言沟通,如果上游 Agent 报告"完成"而实际没完成,下游流程就全乱了。

目前的做法是:每个 Agent 在汇报完成时,必须附上可验证的证据( URL 、文件路径、数据库记录等),而不是只说"已完成"。

这套经验持续记录在公众号「 Wesley AI 日记」,感兴趣的可以关注。
752 次点击
所在节点    程序员
2 条回复
rayae
2 天前
TDD
Haku
2 天前
Agent Swarm 里面好像提到对于前端项目可以直接让 AI 提交 pr 的时候附上截图。
站里也有设计好网页后,通过一个比对脚本,让 AI 截图比对设计图超过 99%相似度才会停止,否则打回。

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/1201616

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX