爱意满满的作品展示区。
yafeilee

同样 3 个任务, Codex 12.5 美金、我们 4.5 美金,质量还打平 Claude Code —— 开源 Agent 满月战报

  •  1
     
  •   yafeilee ·
    PRO
    ·
    windy · 9h 34m ago · 1296 views

    开帖先扔个福利(也是写这帖的由头之一):

    我们官方推荐的模型服务商 OpenClacky AI Keys 这两天上新 + 搞活动——

    • claude-fable-5 上新,已经能直接用了;
    • Gemini 全系限时 8 折:庆祝 gemini-3.5-flash 等三款新模型上线,调用即享、不用手动开。AI Keys 本身就是按模型官方价结算、不加价,只收 5% 通道费,叠完这波是真香。

    好,正题。

    一个月前我在 V2EX 发了第一帖,今天它满月了

    一个月前我发过一帖:《同样 3 个任务他们 30 美金我们 5 美金 —— OpenClacky 1.0 发布,最省 Token 的开源 AI Agent 》

    那帖底下有几位老哥的反馈,我憋了一个月:

    "省是省,可你这开源的,效果真能跟 Claude Code / Codex 比?便宜没好货吧。"

    这话我服气。说实话,很多人——包括一个月前的我自己——心理上都默认 Codex 和 Claude Code 才是天花板。它俩确实强,这不丢人。

    但"便宜没好货"这五个字,作为一个开源项目的作者,听着是真不舒服。所以这一个月我没光顾着抠 Token ,专门组织了一场同台 benchmark ,就为了堵这句话:开源的、省钱的,到底配不配跟那两位坐一桌。

    今天满月,把这个月攒下的真实数据全摊开,欢迎来拍。

    先自报家门:OpenClacky ,一个 100% 开源( MIT )、BYOK 的 AI Agent 。 注意,不是"coding agent"——它是个通用 Agent:写代码只是其中一项,更多人拿它跑「周会录音转写 → 按负责人拆成可执行任务」「每天定时联网做行业摘要」「接到飞书群里当机器人」这类活。所以下面这场 benchmark ,任务也是按"通用"来设计的,不是单纯比谁代码写得好。

    用用户的一句话来说:OpenClacky 可以完全代替各类 Agent ,不是平替是代替,尤其试试 webui ,比用飞书控制好用太多了,token 只有原来的 1/5 ,而且里面有写代码模式,这个可平替 ClaudeCode 和 codex 。

    主菜:三个 Agent 同台跑三个真实任务,全程录屏 + 原始账单公开

    我们让 OpenClacky / Claude Code / Codex(各配自家主流模型:前两家 claude-4.6-sonnet ,Codex 配 gpt-5.5 )跑完全一样的三个真实任务,同一时间段、同样输入、各家默认配置不调优、独立 API Key 分别计量、逐请求账单不估算、单次跑不复跑挑结果

    三个任务故意不挑纯代码题,覆盖"通用 Agent"该干的活:

    1. 供应商初筛汇报 —— 给 10 份供应商沟通纪要 docx + 筛选要求,产出一份能直接拿去汇报的初筛建议文档;
    2. AI 行业日报 —— 联网调研近 3 天 AI 动态,产出一份 HTML 简报;
    3. 个人作品集网站 —— 给简历素材 + 需求文档,产出一个完整的多页网站( HTML/CSS/JS )。

    看结论

    看账单

    先说质量,因为"便宜"最怕的就是"降质"

    测评人员一手逐项打分,结论是:OpenClacky 与 Claude Code 同属第一梯队,三个任务双双高质量完成;而且在直观性、排版字体与动效上,OpenClacky 还略胜一筹。

    • 供应商汇报:OpenClacky 的材料最直观、AI 味最轻,"给人看的汇报"这个目的达成度最高; Claude Code 评估维度更全、给的标准更多(这点它更细); Codex 格式出了问题,AI 味重。
    • AI 行业日报:OpenClacky 呈现最直观、人机味最轻; Claude Code 页面 AI 味偏重; Codex 居中。
    • 作品集网站:OpenClacky 和 Claude Code 都高质量完成、风格相近,OpenClacky 文字/字体/动效略好;Codex 这一局整体不能用——主页排版一般,还反复陷入「截图→屏幕识别→自检」死循环,一个静态 UI 本不需要反复自检,它越检消耗越大,检完效果还垫底。

    一句话:质量这关,开源的我们站住了,不是"凑合能跑",是真同台、甚至细节略胜。

    再说钱,这才是主场

    合计总花费( OpenRouter 逐请求账单核算):

    Agent 任务总花费 相对 OpenClacky
    OpenClacky $4.50
    Claude Code $4.50 打平
    Codex $12.54 2.8 倍

    翻译成人话:

    • 跟 Claude Code 打平——同模型、同质量、同样 $4.50 。开源 harness 和 Anthropic 第一方工具,账单一分不差。
    • Codex 花了 2.8 倍——而且效果还三家垫底。它那 $12.54 里有 **$8.61 全烧在作品集那个"自检死循环"上**:单任务发了 126 个请求( OpenClacky 才 42 个),prompt 总量 10.5M token 。账单曲线和录屏里的循环完全对得上。

    质量同台、价格打平天花板、比 Codex 省掉将近三分之二。便宜,但有好货。

    完整 benchmark (每个任务的交付物预览、全程录屏、逐请求账单 xlsx 原件,全部可下载复现):

    https://www.openclacky.com/benchmark/vs-claude-code-codex

    凭什么能省这么狠?这个我上个月写过了,感谢 V 友的厚爱,130 个赞

    肯定有人要问:"质量打平还能比 Codex 省 2/3 ,靠什么?砍功能?用便宜模型凑?"

    都不是。核心是 harness 层的缓存工程——我们的缓存是模型无关的,你接 Claude 、Gemini 、DeepSeek 还是混着用,缓存照常生效;而 Claude Code 那套缓存**强绑定它自家模型,一换第三方模型,命中率直接掉到 0%**。

    这不是我嘴说。上面那场 benchmark 我们还做了组对照:三家全换成 deepseek-v4-pro 重跑——OpenClacky 照常完成全部任务,$1.30 搞定;而 Claude Code 有两个任务缓存命中率直接 0.0%。harness 不绑模型的价值,这里一目了然。

    这事我上个月专门写过一篇技术贴扒得很细,承蒙各位抬爱,130+ 赞

    Harness 工程分享:我们怎么把 LLM Agent 的 prompt cache 命中率做到 90%+

    那篇讲透了原理,这帖就不重复占篇幅了。一句话总结:我们省的不是偷工减料,是工程复利。 想抠原理的去看上一篇,那才是这套省钱的发动机。

    运营一个月,全网真实数据

    benchmark 是我们在受控环境跑的,可能有人觉得"挑过场子"。那就上全网所有用户的匿名遥测——这部分我们挂在官网首页、每小时自动更新,谁都能去看:

    • 昨日全网处理 Token:8.76B ( 87.6 亿)
    • 累计完成真实任务:492,433 个
    • 近 7 天全网实测缓存命中率:94.9%

    第三条是关键:94.9% 不是单一模型在实验室刷出来的,是全网用户混着各种模型、各种真实任务跑出来的平均值。 同类 Agent 普遍在 60–70%。命中的 Token 厂商只收约 10% 的价——这就是"省"在真实世界里的样子,不是 PPT 数字。

    实际上,DeepSeek/MiMo 已经将 API 缓存命中价格调成了 1%,接下来会有越来越多的厂商会跟进,我预测大量的 LLM 厂商都会优先 API 服务调用。Claude Fable 5 也宣布 2 周后从订阅版移除。

    缓存命中是考察的一个 AIAgent 最综合的 Harness 工程力,OpenClacky 将其做到了极致。

    不是我们王婆卖瓜,听听用户怎么说

    以下都是用户公开或授权发布的真实评价,原话没动:

    "同一个项目写了 3 个小时,跟 Hermes 对比节约了 8 倍 Token 。安装不到 100M ,Hermes 要 48G 。用了之后才发现多 Agent 好鸡肋。现在跨境电商全员都在用。" —— 某跨境电商负责人(从 OpenClaw / Hermes / Copow 一路试过来,3 周后团队全员切换)

    "Codex 用了最贵的模型半小时没解决的问题,OpenClacky 用 kimi-k2.6 解决了。Windows 配置也很友好。" —— 熊 Bear ,AI Native 创业者

    "It takes so much trial and error to arrive at the simplest design. You did it. This is the brilliance, clarity and elegance of ruby brought to agentic tooling. I'm blown away." —— Mihail Paleologu ( Solo founder ,2012 年起就爱 Ruby on Rails )

    有些朋友一人使用还不满足,还帮安利大量新朋友。

    还有许多代码贡献者给 OpenClacky 做了很多使用场景上的打磨:

    例如 Leihb 为核心 Agent 稳定性提供了几项关键 PR ,cnnorain 为产品场景贡献了不少体验改进,计费系统都是他一手完成。还有朋友正在提供一个全新的 TUI 架构,目前已将内核合入。在此感谢,也欢迎更多朋友们参与贡献。

    一个月,产品成熟度上了一个新的台阶,还在观望的朋友可以大胆上车,立刻节省你的 Token 账单

    从 4/26 第一个 beta 到 6/10 的 v1.2.16 ,一个半月 22 次发布( 6 beta + 16 stable ),306 commit ,每次都有 Added/Improved/Fixed 结构化 changelog 。

    三条主线:

    ① 渠道全覆盖:Telegram ( v1.0.5 )→ 钉钉 Stream Mode WebSocket ( v1.1.0 )→ 微信 SendQueue 批量节流防限流( v1.1.1 )→ 飞书 OAuth 自动建应用( v1.2.11 ),尤其是微信和飞书的稳定性体验拉满。

    ② 平台基建:v1.2.0 同一天上了 MCP 外部支持(全新零 Token 成本架构)、USD/CNY 双币种计费、会话回收站软删除恢复。

    ③ 扩展框架:v1.2.8 加了 shell hooks + patching 插件体系,不改核心代码就能拦截工具调用、自定义渠道适配器。再不用担心 AI 把自己的核心改出问题了。

    还有更多:Session forking ( v1.2.13 )、扫描件 PDF OCR ( v1.2.14 )、WSL/Docker/国内 CDN 镜像、模型跟进到 Claude Fable 5 。

    目前的 webui 体验我真是爱不释手,随时随地开 session 、自动记忆、自动空闲压缩、视觉能力、生图、生视频多模型组合也让 OpenClacky 在各种场景发挥作用。

    办公场景,复杂 PDF 阅读也不在话下,连接浏览器也是内置优化方案,无须插件支持,稳定性高,自动复用你的 session ,好用易用。

    最后

    没有别的福利哈,我们是一个工程技术团队,只想把最好的产品带给大家,免费开源,大家帮我们传播就是对我们最大的鼓励。

    下周我们也会针对国产的 Agent 的任务完成能力和成本做横向测评,想看到哪些的表现可以评论区告诉我,敬请期待。

    GitHub 求 Star:github.com/clacky-ai/openclacky —— 100% 开源( MIT ),目前 958 star ,欢迎 star 。

    BYOK:自带任意模型的 key 就能跑;嫌配 key 麻烦的,开头说的 ** OpenClacky AIKeys** 一个 key 通吃 Claude / Gemini / DeepSeek ,正好赶上 Gemini 8 折。

    我们的愿景:成为 Agent 界的蜜雪冰城,效果也配跟天花板坐一桌。

    一键安装: https://www.openclacky.com/#install

    18 replies    2026-06-12 21:05:02 +08:00
    jacketma
        1
    jacketma  
       8h 56m ago
    大佬,咱不是缺 CC ,咱缺的是 Key 啊
    kehan1
        2
    kehan1  
       8h 42m ago
    看来不错嘛,值得试一试
    yafeilee
        3
    yafeilee  
    OP
    PRO
       8h 33m ago
    @jacketma 也有 key ,https://www.openclacky.com/ai-keys 看这里:)最近在针对 gemini 系列 8 折优惠。
    yafeilee
        4
    yafeilee  
    OP
    PRO
       8h 15m ago
    @kehan1 安装很轻量级~ 几分钟~ 100M 以内。
    409164
        5
    409164  
       7h 20m ago   ❤️ 2
    首先,请发推广,我屏蔽了推广节点,所以不希望再看到任何此类内容,请尊重大多用户,其次,牛皮不要吹太大
    putyy
        6
    putyy  
       7h 13m ago
    可以的 空了试试 star👍🏻
    diudiuu
        7
    diudiuu  
       7h 4m ago

    用的还行
    yafeilee
        8
    yafeilee  
    OP
    PRO
       7h 1m ago
    @409164 我们不吹不黑,有实测有结论。有条件用 CC/Codex 不担心封号的没关系,但如果这个比较痛想找替代大胆来对比。
    rina
        9
    rina  
       6h 33m ago
    想起那句:他们的嘲讽声好大呀,差点就要盖过了我的意志... 加油!
    rain0002009
        10
    rain0002009  
       5h 4m ago
    设置模型啥时候可以设置个别名 我有好多中转 没有别名我都不知道 我用的 gpt5.5 是哪家的
    yafeilee
        11
    yafeilee  
    OP
    PRO
       4h 31m ago
    @rain0002009 升到最新版哈,现在重名后会自动增加一个 key 或 provider url 作区别。你看一下效果如何。
    darksword21
        12
    darksword21  
    PRO
       4h 22m ago
    为什么我屏蔽了推广还能看到这种帖子
    darksword21
        13
    darksword21  
    PRO
       4h 20m ago   ❤️ 1
    @rina .... 不是,你们一个公司的,别逗我笑了行吗,什么嘲讽声盖过意志
    getadoggie
        14
    getadoggie  
       3h 48m ago via iPhone
    这个文风 AI 味扑面而来
    不是不给你用 AI 生成
    但是我感觉到的还是一种话术的味道
    缺少了真诚
    yafeilee
        15
    yafeilee  
    OP
    PRO
       3h 30m ago
    @getadoggie 抱歉,文风我都是一行行调的,这次是带着运营了一个月的实际数据来的,说实话我本身也是一个技术人员,没点刷子我自己都不好意思站出来。这次我比任何时候都充满底气:全球真没几个牛逼的 Agent ,OpenClacky 可以排在很前面。功能也超级全面:Skill 自进化、微信/飞书、多 Session 、多模型路由(这多亏了这一个月大量的用户反馈与迭代)
    getadoggie
        16
    getadoggie  
       2h 47m ago via iPhone
    @yafeilee 建议多写写这个产品的功能 不用写太多对比效果 不然很多人一脸懵逼的进来看 README 结果还是一脸懵逼的出去
    getadoggie
        17
    getadoggie  
       2h 45m ago via iPhone
    你这个和 https://v2ex.com/t/1213097 这个 openagent 有什么区别和关注点差异吗
    yafeilee
        18
    yafeilee  
    OP
    PRO
       1h 53m ago
    @getadoggie 功能可以看这里: https://www.openclacky.com/features

    我们的主要目标就是帮你把 Token 效率最大化,超级省钱,并在办公场景和 Coding 场景都拥有优秀的表现。
    About   ·   Help   ·   Advertise   ·   Blog   ·   API   ·   FAQ   ·   Solana   ·   2744 Online   Highest 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 66ms · UTC 14:58 · PVG 22:58 · LAX 07:58 · JFK 10:58
    ♥ Do have faith in what you're doing.