最近豆包手机很火,恰好看到智谱开源的 AutoGLM ,在群里吹水聊了下,记录下一点点思考。
我虽然没有真机体验,看了 B 站很多真实用户分享的视频,还是挺激动。之前在 Github 看到过类似手机 ai 相关项目,大多技术路线差不多:通过 adb 、无障碍、root 等方式获取截图、ui 层级、设备运行信息等,然后调用远程模型(deepseek 、gpt 等),搭配内置的提示词,实现自动化操作手机。比较出名的有:Operit AI,minitap-ai,droidrun 等,以及这几天智谱开源的Open-AutoGLM项目,智谱和其他不同的是使用了针对手机场景训练的 AutoGLM-Phone-9B 模型。
这些项目的原理和实现思路其实大同小异,前几个项目出来也有段时间了,我实际用过 Operit AI 。为啥选它呢?很简单,要是想体验舒服点,没人愿意一直用 adb 方式(总不能一直连电脑吧🤣),而 Operit AI 是独立 APP 方式,提供无障碍、root 等方式激活运行,能获取 UI 层级、截图、执行 shell 命令,有很多内置库和 mcp 。但我实测简单的任务可以,比如打开打开网易云音乐搜索某首歌播放、打开 B 站搜索关键词播放并点赞,整体效果比较慢,主要受模型、提示词、实现逻辑等影响。体验后就很少使用了,主要是容易出错、体验不够流畅,当时就觉得这东西应该由手机厂商去做,系统有"上帝权限",根本不用靠无障碍或 adb 去拿设备信息,再加上端侧 ai 能力,也就是离线本地运行的模型,这样能避免很多问题:运行效率、隐私性等,就是肯定会更耗电。
豆包手机出来后,我觉得基本贴近我之前想的方案了,惊喜的是,它用了类似"虚拟屏"的技术方案,也就是 ai 操作可以放后台,后台应用能达到"前台效果",还不影响前台用户操作手机,也就是可以轻松完成以下类似场景:打游戏的时候呼出豆包助手,及时给老婆回条消息(现在不让操作微信了),B 站上好多视频都展示过类似场景,这里就不专门吹了。还有一点,豆包手机整体 ai 操作比较丝滑,但是看到有的视频里提到有使用服务器额度的提示,也没见过断网后离线使用的实测,所以猜测大概率还是远程模型+本地轻量模型的方案。
发布没几天,微信、阿里这些大厂的软件就开始封禁或抵制豆包手机了,具体表现为警告、限制登录等。由于没摸到真机,网上也没有流出解锁 BL 或 Root 的方案,无法逆向分析,只能从理论层面琢磨下,以下纯属个人"臆想"。
上面分析了豆包手机和同类开源项目的实现方案,也有其他因素(合规性、隐私性等)的限制。参照现在很多开源项目,我感觉未来也会有类似开源或极客形式的 AI 手机的方案,理想中的 AI 手机方案至少满足以下几点:
以上纯属"臆想",至少现阶段(2025 年底)很多要求都无法达到,期待 AI 快速发展的未来,能出现更多可能性,也希望手机厂商和软件厂商能多些开放合作,做出体验更好的 AI 手机。
一点思考和随想,仅作记录,顺便分享到 v2 ,原文博客链接: https://blanke.me/blog/ai-doubao-phone/
这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。
V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。
V2EX is a community of developers, designers and creative people.