最近在开发 Rudder ,一个给重度 agent 用户使用的 Agent Team 协作平台。
项目地址:
- GitHub:GitHub - Undertone0809/rudder: Rudder is an orchestration and control platform for agent work, and the operating layer for agent teams. · GitHub
- Docs:https://doc.rudder.zeeland.studio
如果你已经在高频使用 Codex 、Claude Code 、Cursor ,或者已经开始维护自己的 Agent Skill ,Rudder 解决的是下一阶段的问题:
Agent 不只是完成任务,还能在真实任务、review 和 feedback 里持续迭代自己的能力。
Rudder 把 goals 、issues 、agent runs 、reviews 、feedback 、skills 和 learning 串成一个 work loop 。一次 agent run 结束后,不只留下 transcript ,还会留下可追踪、可 review 、可沉淀、可回滚的学习记录。
我自己现在高频用 Codex 、Claude Code ,也开始大量使用 Agent Skill 。单次执行已经很强。改代码、查 API 、写说明、修 CI ,这些都能做。很多 know-how 也确实可以沉淀下来。
但用久了以后,麻烦的是这些问题:
- 什么应该变成 memory ?
- 什么应该变成 skill ?
- 什么只是这次任务的一次性约束?
- 什么应该留在当前 issue 里?
- 什么根本不该沉淀?
一些可能的情况:一条 review feedback 可能是团队长期原则,也可能只是这次任务的临时要求。一个成功经验可能值得沉淀成 skill ,也可能只适合留在这次任务里。一个 skill 被启用以后,也不代表它真的让 agent 做得更好。它可能误触发,可能拿错 source of truth ,可能增加上下文成本,也可能把旧判断带回新任务。
在这个基础上,Rudder 是 agent team 在实践中成长的运行层:一边推进真实工作,一边把团队的流程、偏好、判断标准和 skill usage 变成可复用的能力资产。
举个例子
比如一次 release 任务失败了。
普通 agent 工具可能最后留下 transcript 、错误日志和一句总结:“下次发布前要更小心。”
这句话没什么用。
Rudder 会更关心这些东西:
- 这次 issue 的目标是什么。
- agent 执行时加载了哪个 release skill 。
- 它查了哪些 source of truth ,比如 tag 、registry 、CI run 。
- reviewer 为什么退回。
- 这次失败暴露的是 skill 的触发问题、流程问题,还是 source 读取问题。
- 这条经验是否值得变成 skill update 。
- 更新后,下次类似 release 是否减少返工。
- 如果没有改善,能不能回滚这次 skill update 。
这样一次失败就不是“又失败了一次”,而是 agent team 的一次训练样本。
和 GitHub Issues + Claude Code + 一堆 Skill 有什么区别?
这个问题很关键。因为我自己也在用这些东西。
GitHub Issues / Linear 能管理任务,但它们不太关心 agent 在这次任务里学到了什么。
Codex / Claude Code 很适合执行任务,但 run 结束后,feedback 、review 、失败模式和 skill 更新很难自然进入下一次工作。
Agent Skill 能沉淀经验,但 skill 本身也会变成问题:
- 什么时候应该触发这个 skill ?
- 这次触发是不是误触发?
- 它有没有先拿对 source of truth ?
- 它有没有真的降低返工?
- 它是不是只是把一次性偏好写成了长期规则?
- 它变差以后能不能回滚?
Rudder 把这些 agent 的执行过程放进一个可追踪、可 review 、可沉淀、可回滚的工作循环里。
欢迎试用、star 和提 issue
Rudder 还在快速迭代中,欢迎大家提供反馈!
如果你也在重度使用 agent ,欢迎试用、star ,或者直接拿自己的 agent workflow 来挑战这个设计。
欢迎大家反馈,最后也想听听大家的讨论!
- 你平常开发的时候用的 Agent Skill ,主要是自己搭建的,还是去网上找好用现成更多?
- 你如何评价自己平常使用的 agent skill ,会去跑 evaluation 吗?
- Agent Skill 多了以后,你们如何处理 skill 越写越长、越写越乱、过度收敛的问题?
- 你们现在怎么判断一条 feedback 应该进 memory 、skill 、workflow ,还是只留在当前 issue ?
- 你们会不会想知道某个 skill 到底有没有让任务成功率变高?
- 如果一个工具能记录 run 、review 、learning proposal 、skill update 、eval 和 rollback ,你会觉得这是刚需,还是过度设计?