同样 3 个任务，他们花了 30 美金，我们 5 美金 —— OpenClacky 1.0 发布，最省 Token 的开源 AI Agent

V2EX = way to explore

V2EX 是一个关于分享和探索的地方

For Existing Member Sign In

爱意满满的作品展示区。

Hi V 友们，我是李亚飞，ClackyAI 创始人，老 V 友。

上次给大家介绍过我们的云端版 ClackyAI （v2ex.com/t/1175020），主打"不懂技术也能从 0 做出可上线的产品"。这次发的是另一条线：我们把 ClackyAI 的内核完全开源，用 Ruby 原生重写成第三版架构，做成本地可用的通用 AI Agent —— OpenClacky 1.0，今天正式发布，100% MIT。

一句话定位：最省 Token 的开源 AI Agent ，能力对齐 Claude Code ，成本仅 Hermes 的 1/6 。

官网：openclacky.com

GitHub：github.com/clacky-ai/openclacky（求 Star ⭐）

一、为什么做这件事

现在用 AI 干活的人越来越多——不只是程序员写代码，做 PPT 、写营销方案、跑竞品调研、整理会议纪要、做日常办公自动化的人都在用。但用过一段时间，绝大多数人都会撞上同一堵墙：账单。

市面上不少"知名" Agent 是结构性的吞金兽——一个完整任务下来 30 美金不算夸张。问题往往不在模型本身，而在 Agent 的 Harness 工程：Cache 设计不合理、工具集膨胀、压缩破坏缓存、上下文反复重建。每一层都在悄悄烧钱，用户却只能在月底被账单教育一次。

OpenClacky 的取舍从第一天就很明确：把"省 Token"做成顶层 Harness 设计目标，而不是事后做的优化补丁。前两代架构（第一代 RAG 、第二代云端多 Agent ）我们踩过很多坑，最后得出的结论是——用户想要的只是把任务又快又好地完成，最好的架构不是盲目追求多 Agent 和复杂编排，而是在单 Agent 上把效果和成本控制做到极致。

第三代架构因此诞生：Ruby 从零重构，历时三个月，围绕 Cache 、工具集、压缩、自进化等七个核心决策重新设计——这就是今天的 OpenClacky 。

架构做完了，效果到底怎么样？我们花了十多天做横向评测，把市面主流的几个 Agent——Claude Code 、OpenClaw 、Hermes——拉到同一条起跑线。统一用 claude-opus-4-7 作为底层模型：这是目前最强、单价也最贵的模型，最容易暴露各家 Harness 的真实水平，省一点点都是真金白银。

二、直接亮数据：3 个任务横评 4 家 Agent

如前面说的，统一用 claude-opus-4-7 作为底层模型；同 prompt 、同 skill 、同时间段，4 家 Agent 跑同样 3 个真实任务：

Agent	总成本	Cache 命中率	请求数
OpenClacky	$5.10	90.6%	51
Claude Code	$5.49	95.2%	70
OpenClaw	$15.70	88.7%	81
Hermes	$30.14	60.3%	218

一句话总结：51 个请求 + 90.6% 命中率 → $5.10 ； Hermes 218 个请求 + 60.3% 命中率 → $30.14 。

数据来源：OpenRouter 逐请求账单 CSV。不是我们自己的日志，是第三方账单。

→ benchmark 总览页：openclacky.com/benchmark

三、三个任务评测实战（带 prompt 、产物、全程录屏）

写代码自不在话下，评测的 3 个任务，是最常见的日常办公/创作场景：

第一个：10 页商务 PPT （ AI Agent 行业趋势汇报） /benchmark/guizang-ppt-skill OpenClacky **$1.23** · Claude Code $1.45 · OpenClaw $5.07 · Hermes $10.96

第二个：AI 客服 SaaS 营销方案 + 可运行官网首页（双交付） /benchmark/marketing-psychology OpenClacky $1.72 · Claude Code **$1.20** · OpenClaw $7.47 · Hermes $4.65 （这一项 Claude Code 胜出）

第三个：B2B SaaS 竞品分析 + 一周社媒内容日历（ 6 步流水线） /benchmark/social-content OpenClacky $2.14 · Claude Code $2.84 · OpenClaw $3.15 · Hermes $14.53

每个落地页都包含：原始 Prompt 全文、四家原始产物、全程屏幕录像、逐请求数据表。一切都摆出来，不藏着。

四、坦白说几句，欢迎来挑战

离 "Claude Code" 还有多远，先把几件事说清楚：

Claude Code 在 cache 命中率上（ 95.2%）确实比我们高（我们 90.6%），这是世界顶级的闭源 Harness ，另外它内部有自动切换 haiku 模型的能力，会让它的成本优势相对明显。我们的优势是在 请求数 × 命中率 的乘积上更优，且完全开源、可自托管、BYOK。新的 1.0.1 版本已经在实际使用做到接近 100%的命中率。
打个小广告：如果你使用 OpenClacky AI Keys 自托管方案，也可以享受子任务自动切便宜模型的特性（无须手工配置）
欢迎你来挑战：
- 装好 OpenClacky ，用你自己的 OpenRouter Key
- 跑 benchmark 页面里的同款 prompt
- 对比账单 CSV
- 跑出比我们便宜的，欢迎 PR ；跑出我们更贵的，提 issue 我们改

五、凭什么这么省 —— 4 个 Harness 工程决策

不是"砍功能换省"，是每一层都做对了选择。这里挑 4 个最关键的讲，更完整的 7 条决策见技术内幕。

① 始终追求 100% Cache 命中 Session 全程 system prompt 永不重建，动态变化的内容（ Skill 列表、模型切换）以独立 [session context] 块插入，不破坏缓存断点；同时对最后 2 条消息双重打 cache_control，避免 N+1 轮时标记错位。绝大多数 Agent 一遇到 Skill 重载就重启 session 、所有缓存全部失效——这个代价我们降为零。

② 最小工具集：一切皆 Skill 核心工具仅 16 个（ Claude Code 40+ / OpenClaw 23 / Hermes 52 ）。靠 invoke_skill 这个元工具把所有复杂能力外包给 Skill 生态：sub-agent 调用、代码库探索、记忆召回、定时任务……全都在核心工具列表之外。工具数量不是竞争力，任务完成率才是。 用户安装新 Skill ，工具数不增、schema 不变、cache 不受影响。

③ Insert-then-Compress：压缩本身也命中缓存 常见做法是新开一个 LLM 调用做压缩——这会让所有已建立的 cache 全部失效。OpenClacky 把压缩指令直接插入当前对话流，在下一轮正常请求时顺带完成。压缩的 cache 天然复用，成本接近零。

④ BYOK ，模型渠道你挑 任意 OpenAI 兼容 API 即插即用。主任务 Claude 、子任务 DeepSeek ，再省一截。

六、关于 Ruby 重写

可能有朋友会问：做 AI Agent 不是 Python 的天下吗，怎么用 Ruby ？

第一代和第二代我们用的就是 Python 。迭代到第二版之后，Agent 的瓶颈在 LLM 调用而非语言性能这一点已经很清楚——决定一个 Agent 跑得好不好的，是 Harness 层的架构设计，不是底层语言的执行速度。

第三代用 Ruby 重写，主要是为了 Harness 工程的表达力：DSL 和元编程让 Session / Cache / Tool 三层关系写起来更顺，工具/Skill 系统的边界也更容易划清楚。前两代踩过的坑，反过来催生了这次架构层面的清算式重写——三个月，从零到一，做出了今天这个内核。

七、不止省钱 —— 这是一个完整的 Agent 工作平台

OpenClacky 不是只有一个跑得快的 Agent 内核，配套的是一整套日常工作流要用的能力：

Web UI + CLI 双形态：Web UI 用浏览器进入，左侧会话列表 / 中间对话 / 右侧产物预览，零命令门槛；终端党直接 openclacky 进入对话模式，是 Claude Code 的开源替代
Skill 技能库：官方内置 commit / deploy / pptx / browser-setup / cron 等一批，一行 /skill-add <url> 装社区 Skill
Skill 自进化：每次任务结束 Agent 自己评估，值得沉淀的工作流自动写成新 Skill ，已用的 Skill 也会反写优化（仅修改用户自建 Skill ，不动官方）
长期记忆：关键决策/偏好自动持久化到 ~/.clacky/memories/，按相关性召回，不污染上下文
定时任务：自然语言描述，自动生成 cron
IM 集成：飞书 / 企微 / 微信直接 @ 召唤
浏览器自动化：驱动真实 Chrome / Edge 操作网页
三级权限控制：从逐步确认到完全自动三档可切，破坏性操作有护栏

完整功能：openclacky.com/features

八、谁用谁省 —— 几类典型场景

🛠️ 程序员 / 开发者 CLI 形态直接替代 Claude Code ，BYOK 用自己的 Key ，月底账单直接砍掉一大半。.clackyrules 自动加载项目规范，三级权限控制，diff 预览，跟 Claude Code 该有的都有。

🚀 Indie hacker / 副业开发者 同样的 200 美金预算，原本只够跑 1 个项目，现在能跑 6 个 —— 试错速度直接 ×6 。

📊 一人公司 / 自由职业者 做客户提案、写咨询报告、出竞品分析、整理材料 —— 原本一个月 AI 账单 $300 现在 $50 ，省下来的就是利润。

💼 行业从业者（市场 / 运营 / 销售 / HR / 律师 / 咨询）日常做方案、写分析、整理资料 —— 每个任务从 $5 降到 $1 ，配合 Skill 库基本不用自己写 prompt 工程。

⚙️ 极客 / 重度 AI 用户 Web UI + CLI + 定时任务 + IM 集成 + 浏览器自动化 + Skill 自进化 + 长期记忆 —— 想搭多复杂的个人工作流都能搭。

简单粗暴的算账：每天 10 个任务，省下来的 Token 钱，一年就是几万刀。

九、怎么上手

桌面安装包（推荐，最省心）

macOS / Windows / Linux 三平台
双击装完，环境/依赖/Skill 全自动就位

命令行（熟手）

一行命令安装
openclacky 进入对话模式

模型怎么接

自带 Key 完全免费（任意 OpenAI 兼容 API ）
想省心也可以用 OpenClacky Keys （直连官方、99% 缓存命中、官方同价）

下载与文档：openclacky.com

十、最后

V 站老规矩：欢迎来拍砖、提 issue 、Star 支持。

特别欢迎跑你自己的真实任务来挑战 benchmark —— 跑得比我们便宜的，我们公开认；跑得比我们贵的，我们当 issue 修。

GitHub：github.com/clacky-ai/openclacky 官网：openclacky.com 评测：openclacky.com/benchmark

有想深度交流的朋友，V 站私信我，或者直接 GitHub issue 。

agent

开源

成本

13 replies • 2026-05-09 17:23:46 +08:00

ytyyt

3h 8m ago

同为 agent 从业者，看完这篇认真读了两遍。几个点说说我的理解：

市面上大多数 Agent 产品的营销重点都放在"能做什么"，很少有人把 Harness 层的工程决策拿出来往清楚讲。cache 命中率、工具集大小、压缩破坏缓存这些细节，真正用本地 agent 跑复杂任务的人都会懂——账单是真实的痛。

"Insert-then-Compress"这个设计我觉得是文章里有意思的一点。把压缩指令插进当前对话流而不是新开 LLM 调用，避免了 cache 失效，又几乎没有额外成本，这是典型的"做对了一件小事，但复利效应很大"的工程决策。很多团队不是不知道，而是在原有架构上打补丁补不进去。

Ruby 重写的理由我觉得合理。最开始看到 Ruby 我也下意识觉得奇怪，但"Agent 瓶颈在 LLM 调用而非语言性能"这个判断是对的，DSL 和元编程确实更适合描述 Session/Cache/Tool 三层关系，选语言的逻辑是清醒的，不只是情怀驱动。

一个小疑问：benchmark 里 Claude Code 在 cache 命中率上（ 95.2%）高于 OpenClacky （ 90.6%），文章解释是闭源 Harness + 自动切 haiku 的优势。但如果 OpenClacky 在新版本里命中率也接近 100% 了，那总成本对比会更有说服力，期待后续公布更新后的数据。

开源 + MIT + BYOK 这个组合对独立开发者和小团队来说确实实在。去 star 了，准备上手试试，后续持续关注。

smiletow6

3h 7m ago

实测成本远低于同类 Agent ，缓存和 Token 优化做得挺好的，平替 Claude Code 性价比简直拉满呀

wonderfulcxm

3h 2m ago via iPhone

对比隔壁的怎么看： https://www.v2ex.com/t/1211200

utodea

2h 45m ago

👍🏻。 /benchmark/guizang-ppt-skill 和 /benchmark/marketing-psycholog 的跳转好像有问题，没跳到用例里去，手动输入也不行。

也欢迎试试我的 DeepSeek-Native CLI： https://github.com/usewhale/whale

用 Ruby 重写是真没想到...

yafeilee

PRO

2h 29m ago

@utodea 第一个是链接引用有点问题，已经加了别外，第 2 个你少打了一个 y 。现在访问都正常了~

yafeilee

PRO

2h 3m ago

@wonderfulcxm 去看了一下热闹，在 token 消耗上大家的思路有相似性，他们我感觉比较学术一些，OpenClacky 定位是一个成熟工程项目，也更适合不折腾的人群。

sizzyxixi

2h 2m ago

我用 OpenClacky 有一段时间了，给我比较直观的感受就是记忆方面我比较省心，几乎不用自己调。一开始我有点惊喜也很担心上下文爆炸的问题。不过我没有横向比对过，今天就看到主创的横比报告。👍🏻

Xhack

1h 54m ago

"不懂技术也能从 0 做出可上线的产品" 这种噱头，做出的产品谁敢用？

defunct9

1h 37m ago

https://v2ex.com/t/1211200 来来来，pk 一下

snxq1995

1h 29m ago

这两天刚开始使用 pi coding agent ，主打的也是省 token 。能做下相关的横向对比吗，毕竟现在 Agent 层出不穷，试用成本以及试用信任也在逐步提高。

yafeilee

PRO

1h 0m ago

@defunct9
@snxq1995 哈，好主意，我们试试~

closedevice

47 mins ago

关注下，明天试试

llggg

25 mins ago

看了下 benchmark ，至少不像很多 Agent 项目只放“精选案例”。

其实现在大家都在卷模型，真正烧钱的很多时候确实是 Harness 层。

尤其 cache 命中率、工具数量、上下文重建这些东西，平时不用大规模跑任务的人很难有体感，一旦真拿来干活，月底账单会非常真实。

Ruby 重写一开始觉得离谱，但细想也合理——Agent 现在瓶颈更多是上下文和调用编排，不是语言性能。

准备明天拿自己一套实际工作流跑跑看，如果真能稳定把成本打到 Claude Code 一半以下，那确实有点东西。