最近 Android 上各种 AI 驱动的手机操作工具开始有些意思,但是并不是所有的手机都支持。
所以有时候突发奇想:假如能让 AI 帮忙操作 iPhone / iPad 会怎么样?
当然,受限于 iOS / iPadOS ,这些操作是需要连电脑的。不过这样正好,在电脑上跑 AI Agent 、电脑来操作手机不就能跑通了吗?
所以本质上,这是一个 MCP Server 、一个 Skill ,用来操作 iPhone / iPad 。为了便于上手和配置,也带一个 Web UI 。
* 下图 Tachibana 简称 TB
+----------------+ +----------------+ +-------------------+
| TB - Web UI | | MCP 客户端 | | AgentSkill 客户端 |
+-------+--------+ +-------+--------+ +--------+----------+
| | |
+-----------------------+-----------------------+
|
+--------v--------+
| TB - API Server |
+--------+--------+
|
+---------------+---------------+
| |
+----------v----------+ +----------v---------+
| idevice | | WebDriverAgent |
| (设备管理) | | (设备操控) |
+----------+----------+ +----------+---------+
| |
+---------------+---------------+
|
+-----------v-----------+
| iPhone / iPad |
+-----------------------+
它会自动帮忙安装 WebDriverAgent 来实现设备操控。所以需要 Apple Account 来给 IPA 签名才能安装到 iPhone / iPad——可以理解成自带一个 AltServer 来安装和维护 WebDriverAgent 。
没有装 OpenClaw 之类的软件,所以 Skill 是拿 Claude Code 验证的,差别应该不大……吧。
直接参考仓库的 README 就可以了。目前验证了 Windows 和 macOS 。( Linux 暂时还没条件验证)
🍊 仓库地址: https://github.com/Paranoid-AF/tachibana
本来年初有些关于 AI Agent 应用的想法,熬夜、周末和过年放假期间抽空搞了很久。后面 scope 越搞越大,越发觉得没必要——可能是有 LLM 辅助写代码的下意识行为,事实上即便代码能生成,设计、测试都是需要人工介入的,其实非常非常累,一不小心挖了个大坑。这个世界不需要那么多的超级 App ,而且超级 App 也是需要大量精力维护的。
于是把其中的一部分功能单独抽了出来,也就是这里的 Tachibana 了。当然,这本来也符合软件工程上的实践。
在任何时候都要知道自己在做什么,如果搞清楚实在太累,就不要想做太大的事情。
Q: 为什么叫这怪名字?
A: Let's all löve lain.