各位有使用 LLM 操作浏览器完成业务自动化的 MCP 方案吗

2 天前
 Sh1xin
传统 RPA 需要对每一步进行明确,有时候 web 突然前端元素变化一点,RPA 就会出问题。运维、开发成本还是比较高。所以我想试一下直接使用 AI 来操作。
方案测试:chrome-mcp-server
结果:可以完成基本动作,但是速度比较慢,简单的登录-点击-获取 table 。LLM 会反复调用 agent ,几个当前先进的模型 gpt5,grok4 等都是同样的问题,非常浪费 token 。
所以想问下有没有其他好的方案,
1053 次点击
所在节点    程序员
11 条回复
xuelang
2 天前
试了一圈,没发现有啥能用的
loloX
2 天前
换个思路呗,你让 AI 给更新自动化测试的脚本。把两个版本不同的 HTML 代码都喂给 AI ,让 AI 发现差异,然后更新旧的脚本。
lmh555168
2 天前
Sh1xin
2 天前
@loloX 我是做业务流程自动化,不是测试自动化。比如现在有一个业务需求是登录系统 A ,然后点击菜单栏"信息录入",然后在出现的表格上面把 excel 信息录入进去。
loloX
2 天前
但是落实到结果难道不都是编写自动化脚本吗?
kxg3030
2 天前
使用模拟浏览器操作都比使用 mcp 快,我只用 mcp 来做逆向
SuperDaniel313
2 天前
https://github.com/SuperDaniel-cn/anbao-scripts

来试试吗?我刚发的版
MCP 我尝试集成过了,拿来玩儿是没问题,但是想拿来干活基本上不可能。自动化脚本的一大特点就是要求稳定性,AI 这个阶段谈稳定性太早了。
换一个思路,用 AI 来编码,然后快速出脚本,这样稳定性和效率就可以兼得了。
Sh1xin
2 天前
@SuperDaniel313 这不就是传统 RPA 的业务场景
chaoshui
2 天前
不如换个思路,让 LLM 帮你写代码,LLM 真要替代传统的 RPA ,使用成本和稳定性是绕不过去的两大难题
SuperDaniel313
2 天前
@Sh1xin #8 LLM 不是烧 token 的问题,是稳定性的问题。
如果你是想 LLM 能像实习生一样,多教几次就能熟练、稳定的执行指令,现阶段不可能啊。LLM 参与自动化任务本身就是最大的不稳定因素,这和自动化要求的稳定相违背的,更别提高效了。

LLM 要反复试错才能解决问题,这在编码领域已经充分验证了呀,一句话丢给 LLM ,等会来看项目已经是一坨屎了,只有时刻盯着才能把项目写出来。只能提效,如果稳定性稍差,反而降效。

业务场景如果要引入自动化往往已经是稳定的业务流,在追求高效了。这不是探索性质的任务。

比如你当前的困境是网页元素变动导致脚本失效,想引入 LLM 来做代替。

这个方案我尝试过,纯脚本或者纯 LLM 都有各自缺点,混合型是不错的路子,比如脚本无法继续的时候,调 LLM 出来救场。LLM 此时的作用是拟人进行高级决策判断。想法蛮好的,但只要用过几次就知道,理想和现实的差距还是蛮大的,最终我放弃集成了。

业务问题就用业务方式解决,技术还没到这个阶段的时候,引入这种不完善的技术反而让业务开展充满阻碍。

LLM 在当下这个场景里,快速编码是更具备价值的能力,你的脚本失效,如果往常需要更多时间来编码,现在用 LLM 只需要自己定位问题,想好解决思路,然后让 LLM 编码,你来快速交付。这样就能更大程度的发挥业务价值,否则 LLM 真能代替你了,那下岗也不远了。
realJamespond
1 天前
chrome devtools 和微软的 playwright mcp

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/1167888

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX