国产模型性价比高但不好用?我做了一瓶模型聪明水

4 月 8 日
 dengsidi4ai
比起 Claude Sonnet 、Gemini 、GPT ,现在国产大模型 API ,其实才是一般用的起。但当你真用它们接入工具做 Agent 干活时,往往会发现一个痛点:它们极容易陷入死循环疯狂查资料,或者闭着眼狂改代码从不 run 测试。一顿操作猛如虎,一看 Token 刷了两亿五。

它们其实不缺逻辑智商,只是缺个协调底层动作的“小脑”。

很多人都想干预思维链,但加一个顶级大模型做监督员,只会让成本越来越贵。

我造了个轮子(权当是一副“聪明水”):一套叫 Governor 的底层行为干预系统。我把 AI 繁杂的动作降维解码成了 X (探索)、E (执行)、P (规划)、V (验证)四个“基因碱基”。

这个中间件会像守护进程一样 O(1) 实时盯盘:一旦发现模型开始“发疯”(比如连续 12 次无效搜索,或光写不测),瞬间注入极轻量的 hook 提示词,像膝跳反应一样强行打断施法。

跑了真实的生产环境数据:喝了这口“聪明水”,Agent 任务成功率提升了 6.2%,更爽的是,无意义的 Token 消耗硬生生砍掉了 44%。用国产模型,也能跑出顶级模型的克制力。

目前这套机制已经开源: https://github.com/FatBy/base-sequence-toolkit ,并集成到我独立开发的 DunCrew (duncrew.com) 中。
827 次点击
所在节点    分享创造
0 条回复

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/1204385

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX