同样 3 个任务， Codex 12.5 美金、我们 4.5 美金，质量还打平 Claude Code —— 开源 Agent 满月战报

开帖先扔个福利（也是写这帖的由头之一）：

我们官方推荐的模型服务商 OpenClacky AI Keys 这两天上新 + 搞活动——

claude-fable-5 上新，已经能直接用了；
Gemini 全系限时 8 折：庆祝 gemini-3.5-flash 等三款新模型上线，调用即享、不用手动开。AI Keys 本身就是按模型官方价结算、不加价，只收 5% 通道费，叠完这波是真香。

好，正题。

一个月前我在 V2EX 发了第一帖，今天它满月了

一个月前我发过一帖：《同样 3 个任务他们 30 美金我们 5 美金 —— OpenClacky 1.0 发布，最省 Token 的开源 AI Agent 》

那帖底下有几位老哥的反馈，我憋了一个月：

"省是省，可你这开源的，效果真能跟 Claude Code / Codex 比？便宜没好货吧。"

这话我服气。说实话，很多人——包括一个月前的我自己——心理上都默认 Codex 和 Claude Code 才是天花板。它俩确实强，这不丢人。

但"便宜没好货"这五个字，作为一个开源项目的作者，听着是真不舒服。所以这一个月我没光顾着抠 Token ，专门组织了一场同台 benchmark ，就为了堵这句话：开源的、省钱的，到底配不配跟那两位坐一桌。

今天满月，把这个月攒下的真实数据全摊开，欢迎来拍。

先自报家门：OpenClacky ，一个 100% 开源（ MIT ）、BYOK 的 AI Agent 。 注意，不是"coding agent"——它是个通用 Agent：写代码只是其中一项，更多人拿它跑「周会录音转写 → 按负责人拆成可执行任务」「每天定时联网做行业摘要」「接到飞书群里当机器人」这类活。所以下面这场 benchmark ，任务也是按"通用"来设计的，不是单纯比谁代码写得好。

用用户的一句话来说：OpenClacky 可以完全代替各类 Agent ，不是平替是代替，尤其试试 webui ，比用飞书控制好用太多了，token 只有原来的 1/5 ，而且里面有写代码模式，这个可平替 ClaudeCode 和 codex 。

主菜：三个 Agent 同台跑三个真实任务，全程录屏 + 原始账单公开

我们让 OpenClacky / Claude Code / Codex（各配自家主流模型：前两家 claude-4.6-sonnet ，Codex 配 gpt-5.5 ）跑完全一样的三个真实任务，同一时间段、同样输入、各家默认配置不调优、独立 API Key 分别计量、逐请求账单不估算、单次跑不复跑挑结果。

三个任务故意不挑纯代码题，覆盖"通用 Agent"该干的活：

供应商初筛汇报 —— 给 10 份供应商沟通纪要 docx + 筛选要求，产出一份能直接拿去汇报的初筛建议文档；
AI 行业日报 —— 联网调研近 3 天 AI 动态，产出一份 HTML 简报；
个人作品集网站 —— 给简历素材 + 需求文档，产出一个完整的多页网站（ HTML/CSS/JS ）。

看结论

看账单

先说质量，因为"便宜"最怕的就是"降质"

测评人员一手逐项打分，结论是：OpenClacky 与 Claude Code 同属第一梯队，三个任务双双高质量完成；而且在直观性、排版字体与动效上，OpenClacky 还略胜一筹。

供应商汇报：OpenClacky 的材料最直观、AI 味最轻，"给人看的汇报"这个目的达成度最高； Claude Code 评估维度更全、给的标准更多（这点它更细）； Codex 格式出了问题，AI 味重。
AI 行业日报：OpenClacky 呈现最直观、人机味最轻； Claude Code 页面 AI 味偏重； Codex 居中。
作品集网站：OpenClacky 和 Claude Code 都高质量完成、风格相近，OpenClacky 文字/字体/动效略好；Codex 这一局整体不能用——主页排版一般，还反复陷入「截图→屏幕识别→自检」死循环，一个静态 UI 本不需要反复自检，它越检消耗越大，检完效果还垫底。

一句话：质量这关，开源的我们站住了，不是"凑合能跑"，是真同台、甚至细节略胜。

再说钱，这才是主场

合计总花费（ OpenRouter 逐请求账单核算）：

Agent	任务总花费	相对 OpenClacky
OpenClacky	$4.50	1×
Claude Code	$4.50	打平
Codex	$12.54	2.8 倍

翻译成人话：

跟 Claude Code 打平——同模型、同质量、同样 $4.50 。开源 harness 和 Anthropic 第一方工具，账单一分不差。
Codex 花了 2.8 倍——而且效果还三家垫底。它那 $12.54 里有 **$8.61 全烧在作品集那个"自检死循环"上**：单任务发了 126 个请求（ OpenClacky 才 42 个），prompt 总量 10.5M token 。账单曲线和录屏里的循环完全对得上。

质量同台、价格打平天花板、比 Codex 省掉将近三分之二。便宜，但有好货。

完整 benchmark （每个任务的交付物预览、全程录屏、逐请求账单 xlsx 原件，全部可下载复现）：

https://www.openclacky.com/benchmark/vs-claude-code-codex

凭什么能省这么狠？这个我上个月写过了，感谢 V 友的厚爱，130 个赞

肯定有人要问："质量打平还能比 Codex 省 2/3 ，靠什么？砍功能？用便宜模型凑？"

都不是。核心是 harness 层的缓存工程——我们的缓存是模型无关的，你接 Claude 、Gemini 、DeepSeek 还是混着用，缓存照常生效；而 Claude Code 那套缓存**强绑定它自家模型，一换第三方模型，命中率直接掉到 0%**。

这不是我嘴说。上面那场 benchmark 我们还做了组对照：三家全换成 deepseek-v4-pro 重跑——OpenClacky 照常完成全部任务，$1.30 搞定；而 Claude Code 有两个任务缓存命中率直接 0.0%。harness 不绑模型的价值，这里一目了然。

这事我上个月专门写过一篇技术贴扒得很细，承蒙各位抬爱，130+ 赞：

Harness 工程分享：我们怎么把 LLM Agent 的 prompt cache 命中率做到 90%+

那篇讲透了原理，这帖就不重复占篇幅了。一句话总结：我们省的不是偷工减料，是工程复利。 想抠原理的去看上一篇，那才是这套省钱的发动机。

运营一个月，全网真实数据

benchmark 是我们在受控环境跑的，可能有人觉得"挑过场子"。那就上全网所有用户的匿名遥测——这部分我们挂在官网首页、每小时自动更新，谁都能去看：

昨日全网处理 Token：8.76B （ 87.6 亿）
累计完成真实任务：492,433 个
近 7 天全网实测缓存命中率：94.9%

第三条是关键：94.9% 不是单一模型在实验室刷出来的，是全网用户混着各种模型、各种真实任务跑出来的平均值。 同类 Agent 普遍在 60–70%。命中的 Token 厂商只收约 10% 的价——这就是"省"在真实世界里的样子，不是 PPT 数字。

实际上，DeepSeek/MiMo 已经将 API 缓存命中价格调成了 1%，接下来会有越来越多的厂商会跟进，我预测大量的 LLM 厂商都会优先 API 服务调用。Claude Fable 5 也宣布 2 周后从订阅版移除。

缓存命中是考察的一个 AIAgent 最综合的 Harness 工程力，OpenClacky 将其做到了极致。

不是我们王婆卖瓜，听听用户怎么说

以下都是用户公开或授权发布的真实评价，原话没动：

"同一个项目写了 3 个小时，跟 Hermes 对比节约了 8 倍 Token 。安装不到 100M ，Hermes 要 48G 。用了之后才发现多 Agent 好鸡肋。现在跨境电商全员都在用。" —— 某跨境电商负责人（从 OpenClaw / Hermes / Copow 一路试过来，3 周后团队全员切换）

"Codex 用了最贵的模型半小时没解决的问题，OpenClacky 用 kimi-k2.6 解决了。Windows 配置也很友好。" —— 熊 Bear ，AI Native 创业者

"It takes so much trial and error to arrive at the simplest design. You did it. This is the brilliance, clarity and elegance of ruby brought to agentic tooling. I'm blown away." —— Mihail Paleologu （ Solo founder ，2012 年起就爱 Ruby on Rails ）

有些朋友一人使用还不满足，还帮安利大量新朋友。

还有许多代码贡献者给 OpenClacky 做了很多使用场景上的打磨：

例如 Leihb 为核心 Agent 稳定性提供了几项关键 PR ，cnnorain 为产品场景贡献了不少体验改进，计费系统都是他一手完成。还有朋友正在提供一个全新的 TUI 架构，目前已将内核合入。在此感谢，也欢迎更多朋友们参与贡献。

一个月，产品成熟度上了一个新的台阶，还在观望的朋友可以大胆上车，立刻节省你的 Token 账单

从 4/26 第一个 beta 到 6/10 的 v1.2.16 ，一个半月 22 次发布（ 6 beta + 16 stable ），306 commit ，每次都有 Added/Improved/Fixed 结构化 changelog 。

三条主线：

① 渠道全覆盖：Telegram （ v1.0.5 ）→ 钉钉 Stream Mode WebSocket （ v1.1.0 ）→ 微信 SendQueue 批量节流防限流（ v1.1.1 ）→ 飞书 OAuth 自动建应用（ v1.2.11 ），尤其是微信和飞书的稳定性体验拉满。

② 平台基建：v1.2.0 同一天上了 MCP 外部支持（全新零 Token 成本架构）、USD/CNY 双币种计费、会话回收站软删除恢复。

③ 扩展框架：v1.2.8 加了 shell hooks + patching 插件体系，不改核心代码就能拦截工具调用、自定义渠道适配器。再不用担心 AI 把自己的核心改出问题了。

还有更多：Session forking （ v1.2.13 ）、扫描件 PDF OCR （ v1.2.14 ）、WSL/Docker/国内 CDN 镜像、模型跟进到 Claude Fable 5 。

目前的 webui 体验我真是爱不释手，随时随地开 session 、自动记忆、自动空闲压缩、视觉能力、生图、生视频多模型组合也让 OpenClacky 在各种场景发挥作用。

办公场景，复杂 PDF 阅读也不在话下，连接浏览器也是内置优化方案，无须插件支持，稳定性高，自动复用你的 session ，好用易用。

最后

没有别的福利哈，我们是一个工程技术团队，只想把最好的产品带给大家，免费开源，大家帮我们传播就是对我们最大的鼓励。

下周我们也会针对国产的 Agent 的任务完成能力和成本做横向测评，想看到哪些的表现可以评论区告诉我，敬请期待。

GitHub 求 Star：github.com/clacky-ai/openclacky —— 100% 开源（ MIT ），目前 958 star ，欢迎 star 。

BYOK：自带任意模型的 key 就能跑；嫌配 key 麻烦的，开头说的 ** OpenClacky AIKeys** 一个 key 通吃 Claude / Gemini / DeepSeek ，正好赶上 Gemini 8 折。

我们的愿景：成为 Agent 界的蜜雪冰城，效果也配跟天花板坐一桌。

一键安装： https://www.openclacky.com/#install