最近豆包手机很火,恰好看到智谱开源的 AutoGLM ,在群里吹水聊了下,记录下一点点思考。
我虽然没有真机体验,看了 B 站很多真实用户分享的视频,还是挺激动。之前在 Github 看到过类似手机 ai 相关项目,大多技术路线差不多:通过 adb 、无障碍、root 等方式获取截图、ui 层级、设备运行信息等,然后调用远程模型(deepseek 、gpt 等),搭配内置的提示词,实现自动化操作手机。比较出名的有:Operit AI,minitap-ai,droidrun 等,以及这几天智谱开源的Open-AutoGLM项目,智谱和其他不同的是使用了针对手机场景训练的 AutoGLM-Phone-9B 模型。
这些项目的原理和实现思路其实大同小异,前几个项目出来也有段时间了,我实际用过 Operit AI 。为啥选它呢?很简单,要是想体验舒服点,没人愿意一直用 adb 方式(总不能一直连电脑吧🤣),而 Operit AI 是独立 APP 方式,提供无障碍、root 等方式激活运行,能获取 UI 层级、截图、执行 shell 命令,有很多内置库和 mcp 。但我实测简单的任务可以,比如打开打开网易云音乐搜索某首歌播放、打开 B 站搜索关键词播放并点赞,整体效果比较慢,主要受模型、提示词、实现逻辑等影响。体验后就很少使用了,主要是容易出错、体验不够流畅,当时就觉得这东西应该由手机厂商去做,系统有"上帝权限",根本不用靠无障碍或 adb 去拿设备信息,再加上端侧 ai 能力,也就是离线本地运行的模型,这样能避免很多问题:运行效率、隐私性等,就是肯定会更耗电。
豆包手机出来后,我觉得基本贴近我之前想的方案了,惊喜的是,它用了类似"虚拟屏"的技术方案,也就是 ai 操作可以放后台,后台应用能达到"前台效果",还不影响前台用户操作手机,也就是可以轻松完成以下类似场景:打游戏的时候呼出豆包助手,及时给老婆回条消息(现在不让操作微信了),B 站上好多视频都展示过类似场景,这里就不专门吹了。还有一点,豆包手机整体 ai 操作比较丝滑,但是看到有的视频里提到有使用服务器额度的提示,也没见过断网后离线使用的实测,所以猜测大概率还是远程模型+本地轻量模型的方案。
发布没几天,微信、阿里这些大厂的软件就开始封禁或抵制豆包手机了,具体表现为警告、限制登录等。由于没摸到真机,网上也没有流出解锁 BL 或 Root 的方案,无法逆向分析,只能从理论层面琢磨下,以下纯属个人"臆想"。
上面分析了豆包手机和同类开源项目的实现方案,也有其他因素(合规性、隐私性等)的限制。参照现在很多开源项目,我感觉未来也会有类似开源或极客形式的 AI 手机的方案,理想中的 AI 手机方案至少满足以下几点:
以上纯属"臆想",至少现阶段(2025 年底)很多要求都无法达到,期待 AI 快速发展的未来,能出现更多可能性,也希望手机厂商和软件厂商能多些开放合作,做出体验更好的 AI 手机。
一点思考和随想,仅作记录,顺便分享到 v2 ,原文博客链接: https://blanke.me/blog/ai-doubao-phone/
1
MacsedProtoss 1 天前 via iPhone
离线运行就不可能,更别提啥别的了
而且这真的是未来形态吗?并不见得。如果还是要模拟人操控 app ,那就不是未来的方向 |
2
shyrock 1 天前
AI 功能由 OS 实现,就意味着大部分 APP 交出了入口,成为后台服务提供者。
而手机厂商反而从底层翻到了最上层,掌控一切流量。 这个商业模式的障碍极难突破。 |