写了个 bench 比较能打的智能体框架

1 月 18 日
 xlianglx
https://github.com/polyuiislab/infiAgent
写了个智能体框架,先用本地 20b 测了 deepresearch 的 bench,竟然比 grok 的 deepresearch 分高😂,然后做了几个常见的智能体类型,AI Scientist (自动化研究实验,半通用型),Cowork (类似 anthropic 的 cowork:编程,做 ppt ,整理桌面,通用型)。AI Scientist 测的挺多,做实验比较方便,写出来的文章过一些 ei 会议投稿没什么问题。Cowork 即使是用 docker 隔离了目标文件夹和宿主机,我感觉还是很危险...不知道 anthropic 官方的 Cowork 有没有出现把人文件删了的事情
1214 次点击
所在节点    分享创造
2 条回复
sunnysab
1 月 18 日
是 op 参与的项目吗?

狠狠关注一波,最近相关方向很有前景,粗看了 README 也很棒。明天有空拜读一下论文、跑跑试试。
xlianglx
1 月 19 日
@sunnysab 是的 hh ,个人项目被组里招安了

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/1186515

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX