同样 3 个任务, Codex 12.5 美金、我们 4.5 美金,质量还打平 Claude Code —— 开源 Agent 满月战报

11 小时 17 分钟前
 yafeilee

开帖先扔个福利(也是写这帖的由头之一):

我们官方推荐的模型服务商 OpenClacky AI Keys 这两天上新 + 搞活动——

好,正题。

一个月前我在 V2EX 发了第一帖,今天它满月了

一个月前我发过一帖:《同样 3 个任务他们 30 美金我们 5 美金 —— OpenClacky 1.0 发布,最省 Token 的开源 AI Agent 》

那帖底下有几位老哥的反馈,我憋了一个月:

"省是省,可你这开源的,效果真能跟 Claude Code / Codex 比?便宜没好货吧。"

这话我服气。说实话,很多人——包括一个月前的我自己——心理上都默认 Codex 和 Claude Code 才是天花板。它俩确实强,这不丢人。

但"便宜没好货"这五个字,作为一个开源项目的作者,听着是真不舒服。所以这一个月我没光顾着抠 Token ,专门组织了一场同台 benchmark ,就为了堵这句话:开源的、省钱的,到底配不配跟那两位坐一桌。

今天满月,把这个月攒下的真实数据全摊开,欢迎来拍。

先自报家门:OpenClacky ,一个 100% 开源( MIT )、BYOK 的 AI Agent 。 注意,不是"coding agent"——它是个通用 Agent:写代码只是其中一项,更多人拿它跑「周会录音转写 → 按负责人拆成可执行任务」「每天定时联网做行业摘要」「接到飞书群里当机器人」这类活。所以下面这场 benchmark ,任务也是按"通用"来设计的,不是单纯比谁代码写得好。

用用户的一句话来说:OpenClacky 可以完全代替各类 Agent ,不是平替是代替,尤其试试 webui ,比用飞书控制好用太多了,token 只有原来的 1/5 ,而且里面有写代码模式,这个可平替 ClaudeCode 和 codex 。

主菜:三个 Agent 同台跑三个真实任务,全程录屏 + 原始账单公开

我们让 OpenClacky / Claude Code / Codex(各配自家主流模型:前两家 claude-4.6-sonnet ,Codex 配 gpt-5.5 )跑完全一样的三个真实任务,同一时间段、同样输入、各家默认配置不调优、独立 API Key 分别计量、逐请求账单不估算、单次跑不复跑挑结果

三个任务故意不挑纯代码题,覆盖"通用 Agent"该干的活:

  1. 供应商初筛汇报 —— 给 10 份供应商沟通纪要 docx + 筛选要求,产出一份能直接拿去汇报的初筛建议文档;
  2. AI 行业日报 —— 联网调研近 3 天 AI 动态,产出一份 HTML 简报;
  3. 个人作品集网站 —— 给简历素材 + 需求文档,产出一个完整的多页网站( HTML/CSS/JS )。

看结论

看账单

先说质量,因为"便宜"最怕的就是"降质"

测评人员一手逐项打分,结论是:OpenClacky 与 Claude Code 同属第一梯队,三个任务双双高质量完成;而且在直观性、排版字体与动效上,OpenClacky 还略胜一筹。

一句话:质量这关,开源的我们站住了,不是"凑合能跑",是真同台、甚至细节略胜。

再说钱,这才是主场

合计总花费( OpenRouter 逐请求账单核算):

Agent 任务总花费 相对 OpenClacky
OpenClacky $4.50
Claude Code $4.50 打平
Codex $12.54 2.8 倍

翻译成人话:

质量同台、价格打平天花板、比 Codex 省掉将近三分之二。便宜,但有好货。

完整 benchmark (每个任务的交付物预览、全程录屏、逐请求账单 xlsx 原件,全部可下载复现):

https://www.openclacky.com/benchmark/vs-claude-code-codex

凭什么能省这么狠?这个我上个月写过了,感谢 V 友的厚爱,130 个赞

肯定有人要问:"质量打平还能比 Codex 省 2/3 ,靠什么?砍功能?用便宜模型凑?"

都不是。核心是 harness 层的缓存工程——我们的缓存是模型无关的,你接 Claude 、Gemini 、DeepSeek 还是混着用,缓存照常生效;而 Claude Code 那套缓存**强绑定它自家模型,一换第三方模型,命中率直接掉到 0%**。

这不是我嘴说。上面那场 benchmark 我们还做了组对照:三家全换成 deepseek-v4-pro 重跑——OpenClacky 照常完成全部任务,$1.30 搞定;而 Claude Code 有两个任务缓存命中率直接 0.0%。harness 不绑模型的价值,这里一目了然。

这事我上个月专门写过一篇技术贴扒得很细,承蒙各位抬爱,130+ 赞

Harness 工程分享:我们怎么把 LLM Agent 的 prompt cache 命中率做到 90%+

那篇讲透了原理,这帖就不重复占篇幅了。一句话总结:我们省的不是偷工减料,是工程复利。 想抠原理的去看上一篇,那才是这套省钱的发动机。

运营一个月,全网真实数据

benchmark 是我们在受控环境跑的,可能有人觉得"挑过场子"。那就上全网所有用户的匿名遥测——这部分我们挂在官网首页、每小时自动更新,谁都能去看:

第三条是关键:94.9% 不是单一模型在实验室刷出来的,是全网用户混着各种模型、各种真实任务跑出来的平均值。 同类 Agent 普遍在 60–70%。命中的 Token 厂商只收约 10% 的价——这就是"省"在真实世界里的样子,不是 PPT 数字。

实际上,DeepSeek/MiMo 已经将 API 缓存命中价格调成了 1%,接下来会有越来越多的厂商会跟进,我预测大量的 LLM 厂商都会优先 API 服务调用。Claude Fable 5 也宣布 2 周后从订阅版移除。

缓存命中是考察的一个 AIAgent 最综合的 Harness 工程力,OpenClacky 将其做到了极致。

不是我们王婆卖瓜,听听用户怎么说

以下都是用户公开或授权发布的真实评价,原话没动:

"同一个项目写了 3 个小时,跟 Hermes 对比节约了 8 倍 Token 。安装不到 100M ,Hermes 要 48G 。用了之后才发现多 Agent 好鸡肋。现在跨境电商全员都在用。" —— 某跨境电商负责人(从 OpenClaw / Hermes / Copow 一路试过来,3 周后团队全员切换)

"Codex 用了最贵的模型半小时没解决的问题,OpenClacky 用 kimi-k2.6 解决了。Windows 配置也很友好。" —— 熊 Bear ,AI Native 创业者

"It takes so much trial and error to arrive at the simplest design. You did it. This is the brilliance, clarity and elegance of ruby brought to agentic tooling. I'm blown away." —— Mihail Paleologu ( Solo founder ,2012 年起就爱 Ruby on Rails )

有些朋友一人使用还不满足,还帮安利大量新朋友。

还有许多代码贡献者给 OpenClacky 做了很多使用场景上的打磨:

例如 Leihb 为核心 Agent 稳定性提供了几项关键 PR ,cnnorain 为产品场景贡献了不少体验改进,计费系统都是他一手完成。还有朋友正在提供一个全新的 TUI 架构,目前已将内核合入。在此感谢,也欢迎更多朋友们参与贡献。

一个月,产品成熟度上了一个新的台阶,还在观望的朋友可以大胆上车,立刻节省你的 Token 账单

从 4/26 第一个 beta 到 6/10 的 v1.2.16 ,一个半月 22 次发布( 6 beta + 16 stable ),306 commit ,每次都有 Added/Improved/Fixed 结构化 changelog 。

三条主线:

① 渠道全覆盖:Telegram ( v1.0.5 )→ 钉钉 Stream Mode WebSocket ( v1.1.0 )→ 微信 SendQueue 批量节流防限流( v1.1.1 )→ 飞书 OAuth 自动建应用( v1.2.11 ),尤其是微信和飞书的稳定性体验拉满。

② 平台基建:v1.2.0 同一天上了 MCP 外部支持(全新零 Token 成本架构)、USD/CNY 双币种计费、会话回收站软删除恢复。

③ 扩展框架:v1.2.8 加了 shell hooks + patching 插件体系,不改核心代码就能拦截工具调用、自定义渠道适配器。再不用担心 AI 把自己的核心改出问题了。

还有更多:Session forking ( v1.2.13 )、扫描件 PDF OCR ( v1.2.14 )、WSL/Docker/国内 CDN 镜像、模型跟进到 Claude Fable 5 。

目前的 webui 体验我真是爱不释手,随时随地开 session 、自动记忆、自动空闲压缩、视觉能力、生图、生视频多模型组合也让 OpenClacky 在各种场景发挥作用。

办公场景,复杂 PDF 阅读也不在话下,连接浏览器也是内置优化方案,无须插件支持,稳定性高,自动复用你的 session ,好用易用。

最后

没有别的福利哈,我们是一个工程技术团队,只想把最好的产品带给大家,免费开源,大家帮我们传播就是对我们最大的鼓励。

下周我们也会针对国产的 Agent 的任务完成能力和成本做横向测评,想看到哪些的表现可以评论区告诉我,敬请期待。

GitHub 求 Star:github.com/clacky-ai/openclacky —— 100% 开源( MIT ),目前 958 star ,欢迎 star 。

BYOK:自带任意模型的 key 就能跑;嫌配 key 麻烦的,开头说的 ** OpenClacky AIKeys** 一个 key 通吃 Claude / Gemini / DeepSeek ,正好赶上 Gemini 8 折。

我们的愿景:成为 Agent 界的蜜雪冰城,效果也配跟天花板坐一桌。

一键安装: https://www.openclacky.com/#install

1370 次点击
所在节点    分享创造
18 条回复
jacketma
10 小时 39 分钟前
大佬,咱不是缺 CC ,咱缺的是 Key 啊
kehan1
10 小时 26 分钟前
看来不错嘛,值得试一试
yafeilee
10 小时 17 分钟前
@jacketma 也有 key ,https://www.openclacky.com/ai-keys 看这里:)最近在针对 gemini 系列 8 折优惠。
yafeilee
9 小时 59 分钟前
@kehan1 安装很轻量级~ 几分钟~ 100M 以内。
409164
9 小时 4 分钟前
首先,请发推广,我屏蔽了推广节点,所以不希望再看到任何此类内容,请尊重大多用户,其次,牛皮不要吹太大
putyy
8 小时 57 分钟前
可以的 空了试试 star👍🏻
diudiuu
8 小时 48 分钟前

用的还行
yafeilee
8 小时 44 分钟前
@409164 我们不吹不黑,有实测有结论。有条件用 CC/Codex 不担心封号的没关系,但如果这个比较痛想找替代大胆来对比。
rina
8 小时 17 分钟前
想起那句:他们的嘲讽声好大呀,差点就要盖过了我的意志... 加油!
rain0002009
6 小时 48 分钟前
设置模型啥时候可以设置个别名 我有好多中转 没有别名我都不知道 我用的 gpt5.5 是哪家的
yafeilee
6 小时 14 分钟前
@rain0002009 升到最新版哈,现在重名后会自动增加一个 key 或 provider url 作区别。你看一下效果如何。
darksword21
6 小时 6 分钟前
为什么我屏蔽了推广还能看到这种帖子
darksword21
6 小时 4 分钟前
@rina .... 不是,你们一个公司的,别逗我笑了行吗,什么嘲讽声盖过意志
getadoggie
5 小时 32 分钟前
这个文风 AI 味扑面而来
不是不给你用 AI 生成
但是我感觉到的还是一种话术的味道
缺少了真诚
yafeilee
5 小时 13 分钟前
@getadoggie 抱歉,文风我都是一行行调的,这次是带着运营了一个月的实际数据来的,说实话我本身也是一个技术人员,没点刷子我自己都不好意思站出来。这次我比任何时候都充满底气:全球真没几个牛逼的 Agent ,OpenClacky 可以排在很前面。功能也超级全面:Skill 自进化、微信/飞书、多 Session 、多模型路由(这多亏了这一个月大量的用户反馈与迭代)
getadoggie
4 小时 31 分钟前
@yafeilee 建议多写写这个产品的功能 不用写太多对比效果 不然很多人一脸懵逼的进来看 README 结果还是一脸懵逼的出去
getadoggie
4 小时 28 分钟前
你这个和 https://v2ex.com/t/1213097 这个 openagent 有什么区别和关注点差异吗
yafeilee
3 小时 37 分钟前
@getadoggie 功能可以看这里: https://www.openclacky.com/features

我们的主要目标就是帮你把 Token 效率最大化,超级省钱,并在办公场景和 Coding 场景都拥有优秀的表现。

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/1219884

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX