高强度使用了半年 claude code 后,我终于无法忍受了,并且我发现了绝佳替代

2 小时 24 分钟前
 h4nru1

直接上菜:GenericAgent

https://github.com/lsdefine/GenericAgent

本人基本信息:国内某 top3 的计算机博士在读,大模型方向。

最近对 cc 的使用情况

我最近在 github trending 上关注了 GA 这个项目,并高强度使用了一周多(完全接管我的科研+生活),然后我就卸载了 cc 、codex 和 openclaw(但是感谢 cc 曾经在我的生命中出现过,不过 openclaw 你是真的垃圾啊)。。

那么有人问了,cc 那么屌,openclaw 被吹的那么神,有什么问题? 我想但凡用过的人此时在心里都有答案了。。

下文的数据来自 arxiv.org/abs/2604.17091,也就是 GA 的技术报告,里面有些 insights 我非常喜欢,而且我的风格也是用数据说话


一、你的钱包顶得住吗?

打一个招呼,oc 要用 4w tokens ,cc 和 codex 也是 2w tokens 打底了,真当我 token 不是花钱买的?

在长程任务上,GA 能够用更少的预算( 1/3 或者更少)获得一样甚至更好的效果

GA 有无敌的原生浏览器操作,能用非常夸张的极低的预算(1/5 左右)实现非常非常 nice 的网页搜索、浏览器操作(1-3 倍的成功率)。

插个题外话,我就是做 deepresearch 的,论文里选的 browsecamp 、webcanvas 这些数据集是非常有挑战的,也给我打开新世界了 hh

最近看大家都在流行 claude code 的各种 web 插件,我的嘴角慢慢上扬。 说实话,ga 的原生浏览器操作吊打所有的 web 插件,不服来战(本人已服)。


二、更好用的智能体一定能自进化

这也是最近 hermes 风头正盛的原因。在这一点上,我认为 GA 做的更好

不要谈参数自进化,因为我认为的自进化就是 agent 对错误经验的总结学习,就像人的进化就是在直立行走之后能够制造和使用工具,而不是长出第六根手指。

直接上结果,oc 就不谈了,纯垃圾。。看 codex 和 cc ,实际上由于这两者的定位( coding ),所以他们是不会自主的总结重复的工作经验的。如果你每次都让他们做一些崭新的项目,那当然没问题,但是你要是让他们去追踪股票,能够按你一句话帮你去网上填表,去做你日常做的操作,那他们每次探索的成本则是巨大的

GA 的自进化机制让 GA 得以越用越快,越用越方便(最后甚至能到心领神会的地步。。)

依旧吊打 oc ,oc 赶紧下桌吧。。


三、好的智能体离不开记忆

我知道大家这时候说了,LLM-Wiki 很吊,Evermemos 很吊,Mem0 很吊,我装这些插件就能让我的智能体有记忆。

先不谈这几个插件到底真实性能怎么样,我作为一个看了很多 memory 论文的从事大模型的人来说,作为一个 agent 的 memory 框架:

测 Locomo 、LongtermMem 这几个数据集就是不合适的! 现在的大模型的记忆不再是 user-centric 了!现在我们需要的大模型记忆是 task-centric,这两者有本质的区别。

所以,停止人云亦云吧。。

我深扒了 GA 的记忆设计,其简洁性和有效性真的令人印象深刻,但是在这里就不展开(如果大家感兴趣,我可能再开一篇帖子详细讲讲)。

我现在对 GA 的使用如图:

有什么记不得的,直接问就好了。。太 tm 牛逼了


彩蛋

另外,我是第一次在 V2EX 发帖,发现这图床都要买。。然后也让 GA 给我整了一个,就一句话

嘿嘿。。最后放一张 GA 自己的 skillhub 里的截图,懂的人自然知道干啥用的


写在最后

还有很多没提到的,大家自己尝试就好了。当然 GA 也有很多让我不爽的地方,比如极其简陋的前端,然后我就在 GA 的群里潜水,最后发现了,大概是开发者的个人风格就是毛坯房的风格。。问他能不能给整好看点,他回答也简单:

他说 "你让 GA 给你做"。。真的无敌了。。

我不允许还有人不知道 GA !!!!

如果这个帖子有点热度,大家有要求的话,我可能会从专业的角度展开讲讲 GA 的技术实现方法,太 tm 优雅了。。

1616 次点击
所在节点    程序员
30 条回复
defunct9
2 小时 11 分钟前
不优雅的地方:对 Linux 不友好,必须要装个 X-win ,弄好了 x-win ,又要弄个 py-win 的,不知道能不能开个 web 好了。为啥非要跑个窗口呢。
zzzzz024
2 小时 11 分钟前
只支持 api key 吗,订阅额度可以用吗
yesha
2 小时 7 分钟前
试试
h4nru1
2 小时 6 分钟前
@defunct9 为什么?你的 linux 有 python 环境直接 python agentmain.py 不就好了。。
h4nru1
2 小时 5 分钟前
@zzzzz024 支持反代,不过反代要你自己整一下。建议左脚踩右脚(先买 ds 的 api ,然后让配了 ds 的 ga 帮你弄反代)
h4nru1
2 小时 5 分钟前
@defunct9 而且有 webui 的应该。。前端确实烂
stimw
2 小时 4 分钟前
> 测 Locomo 、LongtermMem 这几个数据集就是不合适的

这个能详细说说吗
fj19
2 小时 3 分钟前
这算是广告吗
h4nru1
2 小时 1 分钟前
@stimw 这些数据集里的数据都是 user-assistant 的对话堆起来的,然后让模型去 recall 用户提及的细节、偏好等等;但是现在 agent 的模式是任务式的,user 说一句,assistant 要跑好几十轮,召回的主体也从用户细节变成了任务细节(实现 task 中的某个具体步骤)。那原先的测评明显就不合适了。。
h4nru1
2 小时 1 分钟前
@fj19 算,但是你如果花了 5 分钟体验的话,你会感谢我的
defunct9
1 小时 40 分钟前
折腾了半小时,放弃了。滚回去用了 hermes 。
Dream4U
1 小时 32 分钟前
对这种一边贬低别人,一边自己牛逼吹得山响的项目,直接拉黑,试都不会试。
giter
1 小时 30 分钟前
上联:拳打 Claude Code
下联:脚踢 Codex
横批:牛逼坏了
h4nru1
1 小时 20 分钟前
@Dream4U 对这种把 benchmark 结果当贬低、把数据对比当吹牛的阅读理解能力,直接理解,跪久了的确站不起来。
h4nru1
1 小时 19 分钟前
@defunct9 何不把 key 和 github 链接给 Hermes ,让他帮你装?如果他这都做不到,你留他有什么用?
h4nru1
1 小时 17 分钟前
@giter hhh ,正是如此。感谢你帮我说出了心里话
QAZXCDSWE
37 分钟前
有没有想过一个问题,这么牛逼 A\都融资超过上千亿美元了,这项目是不是要国家队接见?
HFX3389
32 分钟前
agent 类太多了,官方的 CC CX ,还有 pi warp ,再加上这个
h4nru1
28 分钟前
thet
28 分钟前
用起来也太麻烦了

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/1211200

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX