V2EX = way to explore

V2EX 是一个关于分享和探索的地方

For Existing Member Sign In

• 请不要在回答技术问题时复制粘贴 AI 生成的内容

直接上菜：GenericAgent

https://github.com/lsdefine/GenericAgent

本人基本信息：国内某 top3 的计算机博士在读，大模型方向。

最近对 cc 的使用情况：

我最近在 github trending 上关注了 GA 这个项目，并高强度使用了一周多（完全接管我的科研+生活），然后我就卸载了 cc 、codex 和 openclaw（但是感谢 cc 曾经在我的生命中出现过，不过 openclaw 你是真的垃圾啊）。。

那么有人问了，cc 那么屌，openclaw 被吹的那么神，有什么问题？我想但凡用过的人此时在心里都有答案了。。

下文的数据来自 arxiv.org/abs/2604.17091，也就是 GA 的技术报告，里面有些 insights 我非常喜欢，而且我的风格也是用数据说话。

一、你的钱包顶得住吗？

打一个招呼，oc 要用 4w tokens ，cc 和 codex 也是 2w tokens 打底了，真当我 token 不是花钱买的？

在长程任务上，GA 能够用更少的预算（ 1/3 或者更少）获得一样甚至更好的效果。

GA 有无敌的原生浏览器操作，能用非常夸张的极低的预算（1/5 左右）实现非常非常 nice 的网页搜索、浏览器操作（1-3 倍的成功率）。

插个题外话，我就是做 deepresearch 的，论文里选的 browsecamp 、webcanvas 这些数据集是非常有挑战的，也给我打开新世界了 hh

最近看大家都在流行 claude code 的各种 web 插件，我的嘴角慢慢上扬。说实话，ga 的原生浏览器操作吊打所有的 web 插件，不服来战（本人已服）。

二、更好用的智能体一定能自进化

这也是最近 hermes 风头正盛的原因。在这一点上，我认为 GA 做的更好。

不要谈参数自进化，因为我认为的自进化就是 agent 对错误经验的总结学习，就像人的进化就是在直立行走之后能够制造和使用工具，而不是长出第六根手指。

直接上结果，oc 就不谈了，纯垃圾。。看 codex 和 cc ，实际上由于这两者的定位（ coding ），所以他们是不会自主的总结重复的工作经验的。如果你每次都让他们做一些崭新的项目，那当然没问题，但是你要是让他们去追踪股票，能够按你一句话帮你去网上填表，去做你日常做的操作，那他们每次探索的成本则是巨大的。

GA 的自进化机制让 GA 得以越用越快，越用越方便（最后甚至能到心领神会的地步。。）

依旧吊打 oc ，oc 赶紧下桌吧。。

三、好的智能体离不开记忆

我知道大家这时候说了，LLM-Wiki 很吊，Evermemos 很吊，Mem0 很吊，我装这些插件就能让我的智能体有记忆。

先不谈这几个插件到底真实性能怎么样，我作为一个看了很多 memory 论文的从事大模型的人来说，作为一个 agent 的 memory 框架：

测 Locomo 、LongtermMem 这几个数据集就是不合适的！ 现在的大模型的记忆不再是 user-centric 了！现在我们需要的大模型记忆是 task-centric，这两者有本质的区别。

所以，停止人云亦云吧。。

我深扒了 GA 的记忆设计，其简洁性和有效性真的令人印象深刻，但是在这里就不展开（如果大家感兴趣，我可能再开一篇帖子详细讲讲）。

我现在对 GA 的使用如图：

有什么记不得的，直接问就好了。。太 tm 牛逼了。

彩蛋

另外，我是第一次在 V2EX 发帖，发现这图床都要买。。然后也让 GA 给我整了一个，就一句话：

嘿嘿。。最后放一张 GA 自己的 skillhub 里的截图，懂的人自然知道干啥用的。

写在最后

还有很多没提到的，大家自己尝试就好了。当然 GA 也有很多让我不爽的地方，比如极其简陋的前端，然后我就在 GA 的群里潜水，最后发现了，大概是开发者的个人风格就是毛坯房的风格。。问他能不能给整好看点，他回答也简单：

他说 "你让 GA 给你做"。。真的无敌了。。

我不允许还有人不知道 GA ！！！！

如果这个帖子有点热度，大家有要求的话，我可能会从专业的角度展开讲讲 GA 的技术实现方法，太 tm 优雅了。。

智能体

浏览器

学习

16 replies • 2026-05-08 17:03:40 +08:00

defunct9

56 mins ago

不优雅的地方：对 Linux 不友好，必须要装个 X-win ，弄好了 x-win ，又要弄个 py-win 的，不知道能不能开个 web 好了。为啥非要跑个窗口呢。

zzzzz024

56 mins ago

只支持 api key 吗，订阅额度可以用吗

yesha

52 mins ago

试试

h4nru1

51 mins ago

@defunct9 为什么？你的 linux 有 python 环境直接 python agentmain.py 不就好了。。

h4nru1

50 mins ago

@zzzzz024 支持反代，不过反代要你自己整一下。建议左脚踩右脚（先买 ds 的 api ，然后让配了 ds 的 ga 帮你弄反代）

h4nru1

50 mins ago

@defunct9 而且有 webui 的应该。。前端确实烂

stimw

49 mins ago

> 测 Locomo 、LongtermMem 这几个数据集就是不合适的

这个能详细说说吗

fj19

48 mins ago

这算是广告吗

h4nru1

46 mins ago

@stimw 这些数据集里的数据都是 user-assistant 的对话堆起来的，然后让模型去 recall 用户提及的细节、偏好等等；但是现在 agent 的模式是任务式的，user 说一句，assistant 要跑好几十轮，召回的主体也从用户细节变成了任务细节（实现 task 中的某个具体步骤）。那原先的测评明显就不合适了。。

h4nru1

46 mins ago

@fj19 算，但是你如果花了 5 分钟体验的话，你会感谢我的

defunct9

25 mins ago

折腾了半小时，放弃了。滚回去用了 hermes 。

Dream4U

17 mins ago

对这种一边贬低别人，一边自己牛逼吹得山响的项目，直接拉黑，试都不会试。

giter

15 mins ago

上联：拳打 Claude Code
下联：脚踢 Codex
横批：牛逼坏了

h4nru1

5 mins ago

@Dream4U 对这种把 benchmark 结果当贬低、把数据对比当吹牛的阅读理解能力，直接理解，跪久了的确站不起来。

h4nru1

4 mins ago

@defunct9 何不把 key 和 github 链接给 Hermes ，让他帮你装？如果他这都做不到，你留他有什么用？

h4nru1

2 mins ago

@giter hhh ，正是如此。感谢你帮我说出了心里话

高强度使用了半年 claude code 后，我终于无法忍受了，并且我发现了绝佳替代

直接上菜：GenericAgent

一、你的钱包顶得住吗？

二、更好用的智能体一定能自进化

三、好的智能体离不开记忆

彩蛋

写在最后