现在 browser-use ( browser agent )和 Omniparser (computer agent), 都是给 LLM 去识别并操作 UI 界面的能力。
但是将来的场景肯定是就一个 LLM 对话框跟用户交互,通过 MCP 直接调用美团、滴滴的后台接口,就可以完成订餐、打车、购票等高频场景。
让用户额外安装 app, 再通过 LLM 去操作手机/电脑上的可视化 UI 界面,完全没有必要了啊。
这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。
V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。
V2EX is a community of developers, designers and creative people.