准备开发一个浏览器 AI Agents, 浏览器驱动选择 Puppetter 和 Playwright 哪个好呀?

257 天前
 YuanJiwei

最近 browser-use 这个项目特别火,感觉 2025 年,大家对 web agent 的需求还是很旺盛的,准备参考 https://midscenejs.com/https://github.com/browser-use/browser-use 整个 webagent 的开源框架。基于 typescript ,让广大前端开发者也加入到 ai agents 的浪潮中。底层浏览器驱动是基于 Puppetter 还是,基于 Playwright 比较好呀?

有感兴趣的朋友添加我的微信,一起开发。 微信( base64):eXVhbnNkdQ==

1832 次点击
所在节点    程序员
3 条回复
musi
257 天前
为啥不直接用 cdp 直接和 chromium 系的浏览器通信?
YuanJiwei
257 天前
谢谢你 @musi 对我很好的启发,cdp 通信是很好一种实现,我计划用它来驱动客户端浏览器。puppetter 或者 playwright 是为服务端浏览器设计的。
riceball
256 天前
Good ,推荐基于这个弄: https://github.com/apify/crawlee easily Extract data for AI, LLMs. Works with Puppeteer, Playwright, Cheerio, JSDOM, and raw HTTP. Both headful and headless mode. 并添加了自己的反屏蔽功能和类人指纹。

这个要单独分几块弄

1. 建立 UI 自动化脚本规范,要简单易懂,能很自然扩展到桌面应用,采用类自然语言,使得 LLM 更好理解
2. 开发 UI 自动化脚本引擎库
3. 设计 PPE 可编程提示词工程(引擎),目的是规范化提示词,使 AI 提示任务工程化,简单化,打通代码和 LLM 之间的 gap ,这个我在弄,目前部分开源: https://github.com/offline-ai/cli 目前进展是实现了类自然语言的结构化聊天消息,只实现了 js 可以像调普通函数一样调用 llm 提示词任务, 反过来 llm 提示词也可以调用任意 js 或其他 PPE. PPE 支持继承,import,export. 还没作广泛宣传,自我感觉完成度不高,仅在 Linux 上开发测试。有一两个应用例子. 提示词这块坑多,模型规模越小,坑越多。大模型也有坑,所以想通过规范化提示词避坑。
4. 引入 UI 自动化脚本引擎库,让 LLM 调用.

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/1102376

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX