OpenAI Symphony / Anthropic Claude Code 背后的共识： Agent Harness Engineering 比选模型重要（附 50+ 项目清单）

V2EX = way to explore

V2EX 是一个关于分享和探索的地方

现在注册

已注册用户请登录

• 请不要在回答技术问题时复制粘贴 AI 生成的内容

清单地址： https://github.com/AutoJunjie/awesome-agent-harness

最近在深度使用 Claude Code / Codex 做项目，发现一个趋势：大家讨论的重心从"用什么模型"转向了"怎么让 agent 稳定干活"。OpenAI 团队用这套方法写了 100 万行生产代码，零人工编写，他们管这叫 harness engineering 。Anthropic 的 Claude Code 团队从工具设计的角度得出了几乎一样的结论：harness 比 model 重要。

简单说，agent harness 就是包在 LLM agent 外面的那层基础设施——session 管理、上下文投喂、工具设计、架构约束、失败恢复、人类审批。模型本身不包含在内。

这个领域最近项目井喷，我花了不少时间整理成了一个 awesome list ，目前收录 50+ 个项目，分了这几类：

Full Lifecycle Platforms — 从需求到交付的全链路，比如 Chorus 、GitHub Agentic Workflows

Agent Orchestrators — 多 agent 并行执行，worktree 隔离，比如 Vibe Kanban 、Emdash 、Warp

Task Runners — issue tracker 到 coding agent 的桥梁，比如 OpenAI Symphony 、Axon

Agent Harness Frameworks — 造 harness 的框架，比如 Deep Agents 、Gambit

Agent Runtimes — agent 的持久运行时，比如 OpenClaw 、Zylos

Coding Agents — 底层 agent 本身，Claude Code 、Codex 、Gemini CLI 等

Requirements & Spec Tools — 需求/spec 工具，OpenSpec 、Spec Kit 等

几个有意思的观察：现在做 orchestrator 的项目最多，基本都在解决同一个问题：怎么让多个 agent 不互相踩。git worktree 隔离已经成了标配。task runner 这个品类是 OpenAI 的 Symphony 带起来的，思路很简洁：轮询 Linear issue ，spawn agent ，产出 PR 。full lifecycle 这层做的人最少，因为要同时解决需求管理、任务编排、人类审批，复杂度高一个量级。如果你也在用 AI agent 做开发，欢迎 star + PR 补充项目。

6 条回复 • 2026-03-06 20:11:57 +08:00