做了一个 Skill:让 AI 真正操作电脑(看屏幕->找元素->等待->点击/输入)

2 月 27 日
 murongxdb

让 AI 真正去“操作电脑”,而不是只给你步骤建议。

这个 Skill 现在已经能跑完整闭环:

截图 -> 解析 UI 元素 -> find/wait 定位目标 -> click/type/hotkey 执行 -> 再截图继续

它提供的能力:

这个 Skill 可以直接安装到 OpenClaw ,让 OpenClaw 的 agent 调用它来控制电脑执行任务。

边界也说清楚:

https://github.com/murongg/ui-element-ops

1536 次点击
所在节点    分享创造
2 条回复
kevan
2 月 28 日
成熟的解决方案: https://midscenejs.com/zh/skills.html
murongxdb
2 月 28 日
@kevan 挺好

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/1194576

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX