V2EX = way to explore

V2EX 是一个关于分享和探索的地方

For Existing Member Sign In

• 请不要在回答技术问题时复制粘贴 AI 生成的内容

直接上菜：GenericAgent

https://github.com/lsdefine/GenericAgent

本人基本信息：国内某 top3 的计算机博士在读，大模型方向。

最近对 cc 的使用情况：

我最近在 github trending 上关注了 GA 这个项目，并高强度使用了一周多（完全接管我的科研+生活），然后我就卸载了 cc 、codex 和 openclaw（但是感谢 cc 曾经在我的生命中出现过，不过 openclaw 你是真的垃圾啊）。。

那么有人问了，cc 那么屌，openclaw 被吹的那么神，有什么问题？我想但凡用过的人此时在心里都有答案了。。

下文的数据来自 arxiv.org/abs/2604.17091，也就是 GA 的技术报告，里面有些 insights 我非常喜欢，而且我的风格也是用数据说话。

一、你的钱包顶得住吗？

打一个招呼，oc 要用 4w tokens ，cc 和 codex 也是 2w tokens 打底了，真当我 token 不是花钱买的？

在长程任务上，GA 能够用更少的预算（ 1/3 或者更少）获得一样甚至更好的效果。

GA 有无敌的原生浏览器操作，能用非常夸张的极低的预算（1/5 左右）实现非常非常 nice 的网页搜索、浏览器操作（1-3 倍的成功率）。

插个题外话，我就是做 deepresearch 的，论文里选的 browsecamp 、webcanvas 这些数据集是非常有挑战的，也给我打开新世界了 hh

最近看大家都在流行 claude code 的各种 web 插件，我的嘴角慢慢上扬。说实话，ga 的原生浏览器操作吊打所有的 web 插件，不服来战（本人已服）。

二、更好用的智能体一定能自进化

这也是最近 hermes 风头正盛的原因。在这一点上，我认为 GA 做的更好。

不要谈参数自进化，因为我认为的自进化就是 agent 对错误经验的总结学习，就像人的进化就是在直立行走之后能够制造和使用工具，而不是长出第六根手指。

直接上结果，oc 就不谈了，纯垃圾。。看 codex 和 cc ，实际上由于这两者的定位（ coding ），所以他们是不会自主的总结重复的工作经验的。如果你每次都让他们做一些崭新的项目，那当然没问题，但是你要是让他们去追踪股票，能够按你一句话帮你去网上填表，去做你日常做的操作，那他们每次探索的成本则是巨大的。

GA 的自进化机制让 GA 得以越用越快，越用越方便（最后甚至能到心领神会的地步。。）

依旧吊打 oc ，oc 赶紧下桌吧。。

三、好的智能体离不开记忆

我知道大家这时候说了，LLM-Wiki 很吊，Evermemos 很吊，Mem0 很吊，我装这些插件就能让我的智能体有记忆。

先不谈这几个插件到底真实性能怎么样，我作为一个看了很多 memory 论文的从事大模型的人来说，作为一个 agent 的 memory 框架：

测 Locomo 、LongtermMem 这几个数据集就是不合适的！ 现在的大模型的记忆不再是 user-centric 了！现在我们需要的大模型记忆是 task-centric，这两者有本质的区别。

所以，停止人云亦云吧。。

我深扒了 GA 的记忆设计，其简洁性和有效性真的令人印象深刻，但是在这里就不展开（如果大家感兴趣，我可能再开一篇帖子详细讲讲）。

我现在对 GA 的使用如图：

有什么记不得的，直接问就好了。。太 tm 牛逼了。

彩蛋

另外，我是第一次在 V2EX 发帖，发现这图床都要买。。然后也让 GA 给我整了一个，就一句话：

嘿嘿。。最后放一张 GA 自己的 skillhub 里的截图，懂的人自然知道干啥用的。

写在最后

还有很多没提到的，大家自己尝试就好了。当然 GA 也有很多让我不爽的地方，比如极其简陋的前端，然后我就在 GA 的群里潜水，最后发现了，大概是开发者的个人风格就是毛坯房的风格。。问他能不能给整好看点，他回答也简单：

他说 "你让 GA 给你做"。。真的无敌了。。

我不允许还有人不知道 GA ！！！！

如果这个帖子有点热度，大家有要求的话，我可能会从专业的角度展开讲讲 GA 的技术实现方法，太 tm 优雅了。。

Supplement 1 · 2h 30m ago

第二篇帖子系统的分析了 GA 的设计思想：见 https://www.v2ex.com/t/1211308#reply0

智能体

浏览器

学习

102 replies • 2026-05-09 02:52:24 +08:00

1 2

❮

❯

defunct9

11h 16m ago

不优雅的地方：对 Linux 不友好，必须要装个 X-win ，弄好了 x-win ，又要弄个 py-win 的，不知道能不能开个 web 好了。为啥非要跑个窗口呢。

zzzzz024

11h 16m ago

只支持 api key 吗，订阅额度可以用吗

yesha

11h 13m ago

试试

h4nru1

11h 12m ago

@defunct9 为什么？你的 linux 有 python 环境直接 python agentmain.py 不就好了。。

h4nru1

11h 11m ago

@zzzzz024 支持反代，不过反代要你自己整一下。建议左脚踩右脚（先买 ds 的 api ，然后让配了 ds 的 ga 帮你弄反代）

h4nru1

11h 10m ago

@defunct9 而且有 webui 的应该。。前端确实烂

stimw

11h 10m ago

> 测 Locomo 、LongtermMem 这几个数据集就是不合适的

这个能详细说说吗

fj19

11h 9m ago

这算是广告吗

h4nru1

11h 7m ago

@stimw 这些数据集里的数据都是 user-assistant 的对话堆起来的，然后让模型去 recall 用户提及的细节、偏好等等；但是现在 agent 的模式是任务式的，user 说一句，assistant 要跑好几十轮，召回的主体也从用户细节变成了任务细节（实现 task 中的某个具体步骤）。那原先的测评明显就不合适了。。

h4nru1

11h 6m ago

@fj19 算，但是你如果花了 5 分钟体验的话，你会感谢我的

defunct9

10h 46m ago

折腾了半小时，放弃了。滚回去用了 hermes 。

Dream4U

10h 38m ago

对这种一边贬低别人，一边自己牛逼吹得山响的项目，直接拉黑，试都不会试。

giter

10h 35m ago

上联：拳打 Claude Code
下联：脚踢 Codex
横批：牛逼坏了

h4nru1

10h 25m ago

@Dream4U 对这种把 benchmark 结果当贬低、把数据对比当吹牛的阅读理解能力，直接理解，跪久了的确站不起来。

h4nru1

10h 24m ago

@defunct9 何不把 key 和 github 链接给 Hermes ，让他帮你装？如果他这都做不到，你留他有什么用？

h4nru1

10h 23m ago

@giter hhh ，正是如此。感谢你帮我说出了心里话

QAZXCDSWE

9h 42m ago

有没有想过一个问题，这么牛逼 A\都融资超过上千亿美元了，这项目是不是要国家队接见？

HFX3389

9h 38m ago

agent 类太多了，官方的 CC CX ，还有 pi warp ，再加上这个

h4nru1

9h 33m ago

@QAZXCDSWE 牛啊，你咋知道的？ https://content-static.cctvnews.cctv.com/snow-book/video.html?item_id=13518694563795549236&t=1773563661926&toc_style_id=video_default&track_id=0BAABA6E-360D-41E2-8215-0FA7EA0D1262_795260339862&share_to=wechat

thet

9h 33m ago

用起来也太麻烦了

h4nru1

9h 33m ago

@QAZXCDSWE 要不再看看这个？ https://www.sohu.com/a/997224735_121198369

h4nru1

9h 32m ago

@thet 我帮你催催开发者让他们再降点门槛

K332

9h 31m ago

就是一个插件吧，核心功能还是其他三方模型，只是这个插件的优势是能省 token 和自己总结使用记录写 skill 。

另外 v 站发帖图床不用买啊，默认用 imgur 的就行了。

h4nru1

9h 30m ago

@K332 省 token 、自进化。还不够吗？

teaguexiao

9h 23m ago

用了半年 claude code 最大的感受是它的 context 管理和记忆机制确实是硬伤，每次开新会话都要重新喂背景，GA 的连续学习机制看起来确实解决了这个痛点。去看看这个项目，感谢分享！

K332

9h 22m ago

@h4nru1 #24 额，这个省 token 是因为上下文不到 30k ，但是现在的 token 缓存计费很低，输入输出高，所以实际上这个看上去消耗 token 少，但是真计费不一定比其他少。至于 skill 自进化这个可有可无吧，让 claude 自己总结历史写个 skill 也差不多的。

h4nru1

9h 18m ago

@K332 建议看技术报告的 2.1 章节。如果你感兴趣我可以再开一篇帖子详细讲讲。推荐你看一下这三篇论文： https://arxiv.org/abs/2307.03172
https://arxiv.org/abs/2410.18745
https://arxiv.org/abs/2302.00093
上下文长度的选择不光是从成本的角度考虑。

horizon

9h 12m ago

top3 是哪所大学

h4nru1

9h 11m ago

@horizon 那有点多。。

superares

9h 6m ago via Android

不支持订阅，还要自己弄反代的就不考虑了

testboy

8h 58m ago

推广就直接说推广。。对，你是博士，这个是复旦开发的，是吧。。
牛。。真牛就用不着到处找人发水贴了。

rtv

8h 50m ago

评价讨厌靠贬低别人来抬高自己，在 op 眼里就是跪久了，很好奇在 op 眼里是不是和你不一样就是跪？

utodea

8h 48m ago

DeepSeek 的缓存命中率还挺高的，高强度用了一阵子感觉价格还能接受。我也在写一个 deepseek-cli ，看看你这个是咋省 token 、自进化的，学习下。

https://github.com/usewhale/whale

Justin13

8h 45m ago via Android

模型原厂的优化和 token 价格是三方难以比拟的
比如 codex plus 20 刀，但你如果按 api 价格算每月能用到 200 刀
这怎么比？所以三方的我全都不用了，cusor 也准备退了
而且 codex 进化的非常快，你提到的记忆，电脑使用，浏览器使用也都支持了
对我来说最划算的就是开两个 plus,每月 250
一个上最新模型解决复杂长注意力任务，5 小时内也就干 2,3 个吧
另一个上 5.3 codex,日常任务完全胜任，非常耐用

yinanc

8h 42m ago

嘉豪

herozzm

8h 40m ago

软文

wubajie

8h 29m ago

软文

Razio

8h 27m ago

牛逼哥，我只想说，工作是工作，论文是论文。说的再天花乱坠，大家上个 B 班，该用啥还是用啥。
打比方，Claude 模型大家公认，你突然来个 Abc ，吊打 Claude ，不做评价，只是说在大家口口相传之前，没人会搭理你 Abc

xingyue

8h 21m ago via Android

单轮上下文确实短，但是也有问题，稍微复杂点的问题能整出几百轮然后死循环最后也解决不了问题，实测下来，用来做编码 agent 并不好用。

darksword21

PRO

7h 55m ago

你是博士≠你说的对

不好意思有点怀疑你 top3 博士的真实性（我是学渣），但是你确实有种认知低下的美

re2ikotr

7h 48m ago

自吹自擂真的是闹麻了

h4nru1

7h 48m ago

@rtv 哪一篇 benchmark 论文没有在对比？所以都是贬低吗？讨厌纸上谈兵的半吊子随便否定别人。另外，1 、我贬低 cc 了吗？ 2 、oc 不垃圾吗？ 3 、你说的 op 是啥？

h4nru1

7h 47m ago

@Justin13 对于不折腾的人来说 codex 和 cc 是最佳选择

h4nru1

7h 47m ago

@utodea 技术报告和代码都开源。可以详细看看。一句话两句话说不完。。

h4nru1

7h 44m ago

@Razio Claude 模型和 Claude code 是一样东西吗

h4nru1

7h 43m ago

@darksword21 我是博士≠我说的对你是学渣=我有种认知低下的美

h4nru1

7h 43m ago

@Justin13 你会反代的话，codex 订阅的额度随便拿出来用

h4nru1

7h 40m ago

@xingyue 用作编码 agent 需要配合 codebase-memory-mcp+开 plan 模式，完全能够胜任中性任务。

h4nru1

7h 39m ago

@re2ikotr 所以你真的打开技术报告看了吗？另外 https://www.sohu.com/a/997224735_121198369 是自吹自擂吗。。

Desiree

7h 22m ago

楼主大方放广告区，没必要跟 v 友对线，既然你的卖点是技术而不是营销

HappyAndSmile

7h 11m ago

你发这些和你 top 几有什么关系呢

deplives

6h 50m ago

[本人基本信息：国内某 top3 的计算机博士在读，大模型方向。]
看到这个我咋有点想笑？不知道的还以为来相亲的

h4nru1

6h 50m ago

@Desiree 分享等于广告？吐槽等于贬低？好好问问题的都在好好解答，不好好说话的我也不客气。

@HappyAndSmile 为了让你应激

h4nru1

6h 48m ago

@deplives 大大方方笑😂

defunct9

6h 31m ago

@h4nru1 问题是 README.md 里写的 quickstart 都是 python launch.pyw ，我按着你这篇来的噻；还特意弄了炼丹的 ubuntu 搞了 x-win ，弄完让 agent 自己装你哪个例子也是一堆报错，这不是兜头一瓢凉水。用 hermes 也是直接 cli 配完就用，没这么多报错

frank1256

6h 26m ago

发小红书更好一点。

Msxx

6h 25m ago via Android

一股推广味儿还装模作样，发个搜狐新媒体链接，真当没人不知道即使挂搜狐的账号名发也要不了百来块钱是吧

h4nru1

6h 24m ago

@defunct9 1 、git clone 2 、检查你的 python 环境有没有装 pywebview 和 streamlit 这两个包 3 、按照指定的格式在 mykey_template.py 填写你的 key 并改名为 mykey.py 4 、python agentmain.py 并在命令行中对他说帮我安装全部依赖。5 、python launch.pyw
具体教程 https://datawhalechina.github.io/hello-generic-agent/part1/chapter1/
注意下载一个全新的 ga ，因为有可能代码被你的 hermes 破坏了。。

h4nru1

6h 22m ago

@Msxx 点开看看呗？请问受广东省委书记和省长点名表扬要花多少钱？上央视 13 要花多少钱？请您开价。

canyue7897

6h 20m ago

弱弱问一句，top3 是浙江大学么？应该不是清北吧。

h4nru1

6h 18m ago

@canyue7897 哈哈哈哈哈哈哈哈，众所周知，top3 有很多

defunct9

6h 18m ago

@h4nru1 回头再试吧，估计得弄台 Windows 的虚机，估计会比较顺畅

orion1

PRO

6h 17m ago

1 你在说什么？
2 我不觉得 gpt 贵

h4nru1

6h 15m ago

@defunct9 我对这东西的理解就是，全责对等，完全替代生产过程。他不是玩具，因为玩具的话放个新环境玩两天也就差不多不用了。。你一般用哪台电脑，就在哪台电脑上装就好了，至于 win 上优化最好，是因为开发者用的是 win ，实际体验下来，mac 也很好用，linux 有个问题就是很多浏览器都是无头的，而且没办法模拟键鼠操作（没有界面）

h4nru1

6h 14m ago

@orion1 便宜就使劲蹬

jerseyhero

5h 48m ago

佬，我用它测试了一下玩 Unity 做的网页游戏，它使用截图+OCR 可以分析游戏画面，但是死活做不到点击按钮。这个是需要安装什么 MCP 么？

h4nru1

5h 42m ago

@jerseyhero 截图点击有个大坑，就是现在的模型分不清“绝对坐标”和“相对坐标”、“物理坐标”和“逻辑坐标”，建议你在提示词中显式提醒模型分清楚上面四种坐标。接着，提示模型用我们内置的 ui_detect 去识别按钮位置（一般微信的那种按钮都能识别到，发微信朋友圈测试过没问题），基本就差不多了。如果要安装 mcp ，直接网页地址丢给他，告诉他改造成你能用的格式，就好。不再存在所谓的“安装”了。

lmmlwen

5h 40m ago

有点意思

slert

5h 38m ago

是你自己开发的吗？

naythefirst01

5h 37m ago

闹麻了，你的项目要是真牛 B 就去和其他同类项目 battle ，好用自然会在圈子里传开，从其他站到这里，总是搞这种营销标题，正文写得像得了亢奋症，整天踩一捧一看着就烦，block

h4nru1

5h 32m ago

@naythefirst01 我甲亢

jsq2627

5h 29m ago

虽然这个帖子一拉一踩令人反感，但是能省 token 的 Agent 就是好 Agent

h4nru1

5h 26m ago

@jsq2627 yes ！帖子是我个人的行为。但是真的吐槽也算拉踩吗。。 = =

Bad0Guy

5h 19m ago

@h4nru1 “ga 的原生浏览器操作吊打所有的 web 插件，不服来战”随便拉出来一句话都是拉踩，推广就好好推广，学 uc 震惊部发帖就去小红书发去

h4nru1

5h 14m ago

@Bad0Guy 事实就是吊打，有实验证明。你有更好的方案也可以给我看看。如果这件事实让你觉得太夸张了，对不起不是我的问题

Attenton

5h 9m ago

特意专门注册个账号来推广。。。被人戳穿还急
另外 xiaoyanghua 知识图谱搞不下去转头搞 agent 了？

h4nru1

5h 5m ago

@Attenton 你说了三句话，哪句是有事实依据的事实？不要变成自己讨厌的样子哦

Bad0Guy

4h 55m ago

@h4nru1 首先我觉得 12 楼说的没错，其次我觉得你的帖子里的语言组织能力不是一般的差，你觉得项目厉害首先该展示的是你用这个项目做成的具体成果，而不是上来就摆 benchmark score 。整篇帖子排版逻辑乱的像个刚进单位的实习生发的文章。V 站基本以程序员为主，你说你是 cs 博士？“我是第一次在 V2EX 发帖，发现这图床都要买”听着我都觉得好笑，帖子里上下看了一遍，挺赞同 31 楼、38 楼的说法

huaweii

4h 49m ago via Android

一眼看上去和 hermes 比起来看不出明显优势

h4nru1

4h 40m ago

@Bad0Guy 1 、benchmark score 就是具体成果的量化，这是学术界通用做法，不是我发明的。2 、排版确实一般，第一次发帖，认。3 、图床那句是事实描述，不知道默认用 imgur 很好笑吗。。4 、31 楼说推广，分享开源项目叫推广的话 V2EX 一半帖子都是推广。38 楼说没人搭理，GitHub star 和 Datawhale 收录你可以自己去看。5 、语言组织能力差不差跟项目好不好用有关系吗。。你要觉得技术不行，拿东西出来说，别光评价我作文写得好不好

Bad0Guy

4h 14m ago

@h4nru1 学术归学术，这里需要的是实际可直接落地的项目，而不是 benchmark ，御三家每次发新模型后就 benchmark ，真上手后又不一定跟 benchmark 的结果一样，大部分人都看厌了。V 站里跟 Google 都有关于图床的免费教程帖在，都读到博士了信息检索能力还这么差？好的帖子内容写的能让 V 友一眼就知道 ga 能做什么，那么大家自然都乐意去尝试，你叽里咕噜说了一堆学术性的东西+拉踩 cc/codex/oc 最后就摆了个 skill 的合集跟用 ga 发了个帖？那除此之外它能实现什么你拉踩的这三家做不到的事？做题做到人做傻了？

fishlium

4h 8m ago

我使用了一周了，这个浏览器操作确实不错，有人也提取了一个 mcp 。我把 openclaw 上的一个工作流程迁移过来，遇到一些问题。一个是这个不支持多智能体，这个还不是主要的，主要是这个经常运行会没执行中断，还有会出现上下文丢失，经常让他继续，他都不知道上一句是干撒的呢，去干很久以前的事

h4nru1

4h 2m ago

@Bad0Guy 1 、事实是我懒得信息检索。会弄图床很了不起吗？是你检索相关教程然后按步骤操作快还是我打一行字快？ 2 、你看不懂的东西不代表别人看不懂 3 、我不是你们 v 友，不知道你们规矩这么大，假如触犯你们天条了，那我认罪认罚 = =

h4nru1

3h 59m ago

@fishlium 麻烦关注我的下一篇帖子，我会具体讲如何实现多智能体。在我们的视角里，多智能体是在约束下催生的涌现能力：主 agent 完全可以通过 code_run 去调用自己，然后起 agent team 。ga 本质上也可以自 cli 。至于上下文的问题，可能需要你提供更具体的信息才好判断。

fishlium

3h 54m ago

@h4nru1 现在是用 subagent 替代的，本质上很多情况其实用不到 agent team ，agent team 主要还是探索使用，但是要自己启 agent team 还是有很多问题要解决的。上下文这个问题我自己也在看，而且我最近发现好像通过飞书比通过自带的 streamlit ui 更容易出现这个问题，按理说是没有关系的。

h4nru1

3h 49m ago

@fishlium 飞书有可能是因为他的卡片有 200 的的元素变化的限制，你更新最新版代码这个问题应该解决了。subagent 是为了隔离上下文，防止污染，如果你自己脑海里有明确的想法，可以在提示词中显式的提示；通过 plan 模式可以天生解决这个问题，plan 模式+监察者本质上就是多 agent 协作。启动方式，在提示词中写：开 plan 模式帮我 xxxx

Bad0Guy

3h 28m ago

@h4nru1 你打那一行废话的时间都能让 agent 检索完信息并且粘贴了，跟了不起没有任何关系。其次你自己看看评论区有几个人是能耐心看你 bb 一堆所谓的 score ？都读到博士了连宣传项目的帖子都不会让 AI 润色下然后再发？🤷

h4nru1

3h 23m ago

@Bad0Guy 我就是不想用 ai 润色，人与人的交流最重要的就是真诚，我想怎么说怎么说。“其次你自己看看评论区有几个人是能耐心看你 bb 一堆所谓的 score”，不要以己度人:)

Bad0Guy

3h 12m ago

@h4nru1 是我以己度人还是你这个所谓的“博士”对于评论区的理解能力比 AI 还烂？

gbin

3h 7m ago

看了下 GenericAgent ，本质还是 computer use 那套，操控浏览器去点点点。

我自己试下来这条路走不通。拿 X 举例，用浏览器操控搜个推文，截屏+识别+点击+等渲染，一趟下来十几秒、几千 token 。我直接写了个 skill 调 X 的 GraphQL API ，200ms 回来结构化 JSON ，token 消耗大概是前者的 1/10 。

浏览器适合一次性的事情，高频操作还是得走 API 。代价就是每个平台要写一遍脚本，但写完就是纯收益。

h4nru1

2h 57m ago

@gbin 有些必须要点点点的，比如微信操作，那点点点总没错吧，但是不需要点点点的，当然直接用 api 更好咯～总之有这个能力，当然比没有好很多

onedge

2h 48m ago

是不是比它省 https://github.com/rtk-ai/rtk

gbin

2h 29m ago

@h4nru1 理论上都可以 API 画，MS Teams 本质上和微信一样，也可以全部 API 自动化 https://github.com/sigcli/sigcli/tree/main/skills/msteams

我认为未来浏览器不在被需要，AI Agent 就是用户流量入口，所有系统都必须支持 AI Agent 友好的接口

h4nru1

2h 28m ago

@gbin 非常认同！所有的程序入口都应该是设计给 llm 看的！

h4nru1

2h 20m ago

@onedge 不清楚不了解不敢妄下判断

h4nru1

1h 52m ago

@Bad0Guy 我只看到今天 github 又点了几百颗星，马上快一万啦！谢谢 v 友～

chipipi

1h 46m ago via Android

真降低门槛通知一下🥹

h4nru1

1h 37m ago

@chipipi 直接进群喷开发者

h4nru1

1h 36m ago

@chipipi 进群 @他们，催催

100

chipipi

1h 10m ago via Android

@h4nru1 飞书文档写得挺详细的，明天试一下，不懂就在群里问

1 2

❮

❯

高强度使用了半年 claude code 后，我终于无法忍受了，并且我发现了绝佳替代

直接上菜：GenericAgent

一、你的钱包顶得住吗？

二、更好用的智能体一定能自进化

三、好的智能体离不开记忆

彩蛋

写在最后