一句话控制 iPhone :我用 3B 小模型操控 iPhone 帮我发信息、点外卖

17 小时 46 分钟前
 glayyy8717

用自然语言控制 iPhone 的 GUI Agent ,小模型就能跑

项目地址: https://github.com/hyechow/iphone-use

做了什么

利用 Mac 上的 iPhone Mirroring 把 iPhone 投屏到电脑,通过 MCP 协议获取截图、注入触控事件,让 LLM 驱动整个交互闭环。用户说一句话,Agent 自己截图 → 理解屏幕 → 决策操作 → 循环执行,直到完成。

能干什么

操作类:把拼多多订单分享给微信好友(跨 APP )

查询类:打开微信支付汇总上周账单支出

探测模式:自动探索任意 APP 页面结构,生成可复用的知识库

演示视频都在 README 里,欢迎交流和学习~

1820 次点击
所在节点    分享创造
18 条回复
octocatami
17 小时 44 分钟前
太慢了
tony9413
17 小时 40 分钟前
完美闭环了,知识库这个蛮有创意的。
YAFEIML
17 小时 32 分钟前
不错,star 已送。
402124773
17 小时 30 分钟前
Qwen3.5-35B-A3B 这个模型本地化运行需要多大显存占用
spike0100
17 小时 14 分钟前
感觉挺牛的,我试试
glayyy8717
16 小时 34 分钟前
@402124773 不知道哦,没实测过,我是调阿里云的 API 的,用量化版的,单卡 4090 估计够用
glayyy8717
16 小时 33 分钟前
@YAFEIML 感谢老铁~
glayyy8717
16 小时 32 分钟前
@tony9413 谢谢老铁😊
gezimonkey
15 小时 13 分钟前
非常有意义的项目,star 已送!
fangqiu1992
15 小时 6 分钟前
ovtfkw
15 小时 4 分钟前
没有 mac 能跑吗
v2gba
14 小时 47 分钟前
看到里面核心是 https://github.com/jfarcand/mirroir-mcp


想问下有没有对应的安卓版,像拿来同屏跑两个生态的软件 diff
glayyy8717
14 小时 24 分钟前
@ovtfkw 不行哦,只有 mac 才有 iphone 镜像这个软件
@v2gba 安卓端没有调研过,不清楚哦,应该是有类似的吧
v2gba
14 小时 21 分钟前
@glayyy8717 scrcpy 的基础上可以实现吗?
xing7673
14 小时 0 分钟前
既然都用 iphone mirroring 了,不如直接用 codex 控制?
ButcherHu
13 小时 52 分钟前
🐮的,star 了,不知道再小的模型行不行,本地还是有点慢的
csdreamdong
13 小时 45 分钟前
能用第三方的模型么?
glayyy8717
13 小时 17 分钟前
@v2gba scrcpy + adb ,感觉在安卓应该可以
@xing7673 常规的任务 codex 没啥问题,就是比较贵而已,但是对 APP 的交互是有点奇怪,有些页面只有 drag 不能 scroll ,有页面就反过来,codex 对这些手势操作还点问题
@ButcherHu 没试过更小的,还在摸索中...
@csdreamdong Qwen3.5/6/7 全系列都行,其他不行,因为这里利用 qwen 系列的 grounding 能力,不同模型解析坐标的方法不同

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/1215844

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX