我做了一个 Agent Team 协作平台——Rudder：让 Agent Team 在实践中成长

最近在开发 Rudder ，一个给重度 agent 用户使用的 Agent Team 协作平台。

项目地址：

GitHub：GitHub - Undertone0809/rudder: Rudder is an orchestration and control platform for agent work, and the operating layer for agent teams. · GitHub
Docs：https://doc.rudder.zeeland.studio

如果你已经在高频使用 Codex 、Claude Code 、Cursor ，或者已经开始维护自己的 Agent Skill ，Rudder 解决的是下一阶段的问题：

Agent 不只是完成任务，还能在真实任务、review 和 feedback 里持续迭代自己的能力。

Rudder 把 goals 、issues 、agent runs 、reviews 、feedback 、skills 和 learning 串成一个 work loop 。一次 agent run 结束后，不只留下 transcript ，还会留下可追踪、可 review 、可沉淀、可回滚的学习记录。

我自己现在高频用 Codex 、Claude Code ，也开始大量使用 Agent Skill 。单次执行已经很强。改代码、查 API 、写说明、修 CI ，这些都能做。很多 know-how 也确实可以沉淀下来。

但用久了以后，麻烦的是这些问题：

什么应该变成 memory ？
什么应该变成 skill ？
什么只是这次任务的一次性约束？
什么应该留在当前 issue 里？
什么根本不该沉淀？

一些可能的情况：一条 review feedback 可能是团队长期原则，也可能只是这次任务的临时要求。一个成功经验可能值得沉淀成 skill ，也可能只适合留在这次任务里。一个 skill 被启用以后，也不代表它真的让 agent 做得更好。它可能误触发，可能拿错 source of truth ，可能增加上下文成本，也可能把旧判断带回新任务。

在这个基础上，Rudder 是 agent team 在实践中成长的运行层：一边推进真实工作，一边把团队的流程、偏好、判断标准和 skill usage 变成可复用的能力资产。

举个例子

比如一次 release 任务失败了。

普通 agent 工具可能最后留下 transcript 、错误日志和一句总结：“下次发布前要更小心。”

这句话没什么用。

Rudder 会更关心这些东西：

这次 issue 的目标是什么。
agent 执行时加载了哪个 release skill 。
它查了哪些 source of truth ，比如 tag 、registry 、CI run 。
reviewer 为什么退回。
这次失败暴露的是 skill 的触发问题、流程问题，还是 source 读取问题。
这条经验是否值得变成 skill update 。
更新后，下次类似 release 是否减少返工。
如果没有改善，能不能回滚这次 skill update 。

这样一次失败就不是“又失败了一次”，而是 agent team 的一次训练样本。

和 GitHub Issues + Claude Code + 一堆 Skill 有什么区别？

这个问题很关键。因为我自己也在用这些东西。

GitHub Issues / Linear 能管理任务，但它们不太关心 agent 在这次任务里学到了什么。

Codex / Claude Code 很适合执行任务，但 run 结束后，feedback 、review 、失败模式和 skill 更新很难自然进入下一次工作。

Agent Skill 能沉淀经验，但 skill 本身也会变成问题：

什么时候应该触发这个 skill ？
这次触发是不是误触发？
它有没有先拿对 source of truth ？
它有没有真的降低返工？
它是不是只是把一次性偏好写成了长期规则？
它变差以后能不能回滚？

Rudder 把这些 agent 的执行过程放进一个可追踪、可 review 、可沉淀、可回滚的工作循环里。

欢迎试用、star 和提 issue

Rudder 还在快速迭代中，欢迎大家提供反馈！

github.com

如果你也在重度使用 agent ，欢迎试用、star ，或者直接拿自己的 agent workflow 来挑战这个设计。

欢迎大家反馈，最后也想听听大家的讨论！

你平常开发的时候用的 Agent Skill ，主要是自己搭建的，还是去网上找好用现成更多？
你如何评价自己平常使用的 agent skill ，会去跑 evaluation 吗？
Agent Skill 多了以后，你们如何处理 skill 越写越长、越写越乱、过度收敛的问题？
你们现在怎么判断一条 feedback 应该进 memory 、skill 、workflow ，还是只留在当前 issue ？
你们会不会想知道某个 skill 到底有没有让任务成功率变高？
如果一个工具能记录 run 、review 、learning proposal 、skill update 、eval 和 rollback ，你会觉得这是刚需，还是过度设计？