有大佬用过 browser use 吗?效果怎么样?

22 小时 13 分钟前
 guiyumin

似乎很火,但不知道效果如何

都用于什么方面呢?爬虫?

如果搞一个 app use 会有人用吗

1399 次点击
所在节点    程序员
10 条回复
BingoW
20 小时 6 分钟前
之前用过,效果一般。现在用 codex 配合 chrome Devtools mcp ,效果挺不错的。你自己研究搞搞可以的,想商用赚钱就算了,因为大厂出新产品太快了,你细细打磨一年的产品,人家看到了觉得不错,分分钟出个替代品。
sacuba
19 小时 21 分钟前
还有 nana browser ,都是反应太慢了,得有特定场景然后针对性微调模型之后才可用。
ygweric
19 小时 18 分钟前
我研究过源码,写的很精妙。

用处主要是:智能助力、UI 测试,这样子成本可以和应届生的工资比较便宜很多。

爬虫不可能,非常慢,而且 token 的图片识别还是非常贵的,不划算。
yejjgo
18 小时 47 分钟前
最开始尝试用来结合大模型做自动化测试,效果不稳定,后来换成生成自动化脚本再使用的方式还挺不错
guiyumin
18 小时 24 分钟前
@yejjgo 嗯,对的,大模型还是不稳定
cz5424
17 小时 47 分钟前
一般用来让 ai 调试网页进行 debug
coefu
16 小时 49 分钟前
底层实现是用的 playwright ,只是把人看到的 web 页面上的 物件 利用 LLM 对话 映射到 playwright 里的组件,做的就是中间这层转换。实际效果不会太好。
gongym
15 小时 57 分钟前
说到无头浏览器,我发现了这个好像很牛
https://github.com/lightpanda-io/browser
GiantHard
12 小时 38 分钟前
我试了 playwright-mcp 跟 chrome-devtools-mcp ,主要场景是用 claude code 帮我执行 UI 测试,这俩 mcp 主要用 Accessbility API 给 LLM 描述页面的状态,在 playwright-mcp 中,这个功能叫 snapshot ;而现有的系统在可访问性方面做的不太好,以至于 GLM 4.5/Claude Sonnet 4 都会被很简单 UI 交互卡住,例如,滚动 Antd 4 Tree 组件的虚拟列表,我手动截图页面让 LLM 识别的话,LLM 都能知道应该用滚轮事件向下滚动,但如果只提供 Snapshot 的话,这些模型会被卡住很久并最终撂挑子。所以个人感觉在 UI 测试的场景中,还是基于视觉( screenshot )的方案更优。

最近再调研的时候,发现 Google 整了一个新的 Computer Use 模型,能够基于截图跟浏览器交互,看演示视频的效果还不错,但是限定只能用 gemini-2.5 的一个实验性版本。
Cheez
10 小时 58 分钟前
@ygweric 你可能想错了。以前是 website -> 手写代码 -> data or error -> 再次手写代码
现在是 website -> AI 代码 -> data or error -> 再次 AI 代码

也就是说,是用 AI 来制作 website to data 的算法,而不是让 AI 去当这个“算法”。

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/1165258

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX