V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
爱意满满的作品展示区。
adorehb
V2EX  ›  分享创造

application-use:比 Computer Use 更快、更准,专为 AI Agent 打造的 macOS 原生自动化利器

  •  
  •   adorehb · 6 小时 40 分钟前 · 193 次点击

    最近一直在关注 AI Agent 操控电脑的方向,Anthropic 的 Computer Use 确实很惊艳,但在实际使用中发现:单纯依赖“截图+坐标点击”的视觉推断模式,在 macOS 上不仅慢,而且经常点不准,对 Token 的消耗也非常大。

    于是,我开发了一个更符合“原生直觉”的工具,并且开源出来:https://github.com/qdore/application-use

    💡 它是什么?

    application-use 是一个高性能的 macOS 应用程序自动化命令行工具。它没有走全视觉推断的老路,而是直接构建在 macOS 原生 Accessibility API 和 Apple Vision 框架 之上。

    简单来说,它是为了让 LLM / AI Agent 能够像“老司机”一样精准操控 macOS 软件而设计的。

    🚀 核心优势:

    原生级性能:基于 Go + Swift 构建,直接调用 AXUIElement 。获取 UI 结构是毫秒级的,点击和输入也是系统原生的,告别等待截图和视觉推断的延迟。 文本化理解( Textual Understanding ):它会把复杂的窗口 UI 转换为带有 Alphabet Hints (类似 Vimium 的 JK, AA 标签)的结构化文本。AI 不需要猜坐标,只需告诉工具“点击 JK”即可。 Vision 强力辅助:对于那些 Accessibility 支持不好的 App ,它会自动调用 Apple Vision OCR 进行补全,确保没有死角。 AI Agent 友好:完美的 Snapshot -> Interact 闭环。哪怕是坐标偏移或窗口位移,基于 Hint 的操作逻辑依然能保持 100% 的准确率。

    🛠️ 怎么用?

    安装非常简单:

    npm install -g application-use@latest
    

    核心命令演示:

    # 搜索并打开 Safari
    application-use search "safari"
    application-use open --appName "Safari"
    # 获取窗口快照( AI 友好的结构化文本 + 操作标签)
    application-use snapshot --appName "Safari"
    # 根据标签点击(比如标签是 JK )
    application-use click JK --appName "Safari"
    # 发送组合键
    application-use sendkey cmd+t --appName "Safari"
    

    AI Coding Assistant 配合: 如果你在用类似 Antigravity/OpenClaw/Claude Code 等的 AI 助手,可以直接运行 npx skills add qdore/application-use 获取更好的上下文。

    目前这个工具还处在快速迭代阶段,欢迎感兴趣的同学试用、提 issue 或者讨论更高效的 Agent 交互模式!

    2 条回复    2026-03-29 18:29:45 +08:00
    xing7673
        1
    xing7673  
       2 小时 22 分钟前
    openclaw 的 peekaboo 已经支持了你这个 AX 空间/Apple Vision 能力了,缺点就是对其他 GUI 框架比如 electron 的 app 里的按钮根本没法识别,还是要识图
    我自己有尝试过除了使用这两个,配合用 omniparser 去进行 icon 识别,准确率会高很多,点击肯定是准的,但是缺点还是 token 使用量大以及慢。

    在原生 icon-use 的大模型出来之前,我自己下一步的优化方案是使用 opencv 来做轨迹路径,类似于 autohotkey 但是是 llm 先导的步骤,这样走过一遍的流程就不用再次识图,节省 token 。
    adorehb
        2
    adorehb  
    OP
       1 小时 33 分钟前 via iPhone
    @xing7673 没有原生覆盖的场景,包括无法识别的按钮,我都加了识图做补充。对 electron app 的按钮,大部分都能正确识别的。后面时间够了会微调一个 yolo 用于进一步支持。
    你可以试试如果有问题欢迎 issue 反馈讨论。
    关于   ·   帮助文档   ·   自助推广系统   ·   博客   ·   API   ·   FAQ   ·   Solana   ·   2870 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 20ms · UTC 12:03 · PVG 20:03 · LAX 05:03 · JFK 08:03
    ♥ Do have faith in what you're doing.