对"豆包手机"的一点点思考(偏一点技术向)

V2EX = way to explore

V2EX 是一个关于分享和探索的地方

现在注册

已注册用户请登录

豆包手机的感想

最近豆包手机很火，恰好看到智谱开源的 AutoGLM ，在群里吹水聊了下，记录下一点点思考。

我虽然没有真机体验，看了 B 站很多真实用户分享的视频，还是挺激动。之前在 Github 看到过类似手机 ai 相关项目，大多技术路线差不多：通过 adb 、无障碍、root 等方式获取截图、ui 层级、设备运行信息等，然后调用远程模型(deepseek 、gpt 等)，搭配内置的提示词，实现自动化操作手机。比较出名的有：Operit AI，minitap-ai，droidrun 等，以及这几天智谱开源的Open-AutoGLM项目，智谱和其他不同的是使用了针对手机场景训练的 AutoGLM-Phone-9B 模型。

这些项目的原理和实现思路其实大同小异，前几个项目出来也有段时间了，我实际用过 Operit AI 。为啥选它呢？很简单，要是想体验舒服点，没人愿意一直用 adb 方式（总不能一直连电脑吧🤣），而 Operit AI 是独立 APP 方式，提供无障碍、root 等方式激活运行，能获取 UI 层级、截图、执行 shell 命令，有很多内置库和 mcp 。但我实测简单的任务可以，比如打开打开网易云音乐搜索某首歌播放、打开 B 站搜索关键词播放并点赞，整体效果比较慢，主要受模型、提示词、实现逻辑等影响。体验后就很少使用了，主要是容易出错、体验不够流畅，当时就觉得这东西应该由手机厂商去做，系统有"上帝权限"，根本不用靠无障碍或 adb 去拿设备信息，再加上端侧 ai 能力，也就是离线本地运行的模型，这样能避免很多问题：运行效率、隐私性等，就是肯定会更耗电。

豆包手机出来后，我觉得基本贴近我之前想的方案了，惊喜的是，它用了类似"虚拟屏"的技术方案，也就是 ai 操作可以放后台，后台应用能达到"前台效果"，还不影响前台用户操作手机，也就是可以轻松完成以下类似场景：打游戏的时候呼出豆包助手，及时给老婆回条消息(现在不让操作微信了)，B 站上好多视频都展示过类似场景，这里就不专门吹了。还有一点，豆包手机整体 ai 操作比较丝滑，但是看到有的视频里提到有使用服务器额度的提示，也没见过断网后离线使用的实测，所以猜测大概率还是远程模型+本地轻量模型的方案。

豆包手机被限制

发布没几天，微信、阿里这些大厂的软件就开始封禁或抵制豆包手机了，具体表现为警告、限制登录等。由于没摸到真机，网上也没有流出解锁 BL 或 Root 的方案，无法逆向分析，只能从理论层面琢磨下，以下纯属个人"臆想"。

可能的风控因素：设备硬件参数(机型、设备指纹、系统参数、环境变量等)、AI 技术特征(很多媒体提到的 INJECT_EVENTS 权限、无障碍技术的使用痕迹、"虚拟屏"的技术特征等)
可能的应对技术方案：
- 先说明下，这是不考虑合规性和舆论风险的纯技术猜想，豆包一定不会这么做
- 可以将设备参数随机化或伪装，既然可能风控的是努比亚 M153 参数，那么将机型参数改为努比亚 M154 或其他努比亚热门手机型号，避免被针对
- 把技术实现改为系统层调用，避免使用无障碍等技术。既然系统都是自家开发的，那么在系统层面将 event 改成用户手动 event 轻轻松松，这样 APP 就识别不了是否是模拟操作
可能的后续发展：技术发展不能以马车视角看蒸汽机，ai 手机肯定是未来趋势，但是为了应对黑灰产、隐私性等要求，也为了守住自身的"护城河"，软件厂商短期内大概率会保持保守态度。未来手机厂商和各大软件厂商大概率会牵手合作，只开放基础的 ai 操作权限，而且需要用户手动开启，手机系统也可完全关闭 AI 功能。根据以往的经验，或许这块还得靠苹果来推动，iOS 上了 Android 才有可能快速跟进，而且不用想，国内功能绝对有阉割或软件不配合。

理想中的 AI 手机

上面分析了豆包手机和同类开源项目的实现方案，也有其他因素(合规性、隐私性等)的限制。参照现在很多开源项目，我感觉未来也会有类似开源或极客形式的 AI 手机的方案，理想中的 AI 手机方案至少满足以下几点：

所有 AI 功能都在系统层实现，具体做法可以通过 Fork LineageOS 或开源 Rom 代码实现，也可通过类似 Xposed 模块等方式注入系统服务方式实现
支持离线运行 AI 模型，得平衡好功耗和模型能力(未来模型能力越来越强，还是很有可能的），毕竟移动设备，耗电多了也没人愿意用
系统层不依赖无障碍、Root 、adb 等，能高效获取界面和操作设备。优先通过 UI 层级（也就是 View 树，类似网页的 Dom 树）获取信息，而且要做精简，只提取有实际显示内容的 View 节点；截图方式效率低、模型处理也慢，可以考虑降低分辨率和画质；其他设备操作优先用 shell 命令获取，比如启动 APP 、发送广播、读取文件、设置定时任务这些
系统层直接实现自动化操作，模拟用户手动操作，让 APP 无法区分是自动化还是真人操作
支持 MCP 和插件，得有对开发者友好的扩展环境，搭建完善的插件生态
保障隐私，核心功能离线运行，要是有需要联网的功能，必须让用户手动确认
能识别并管控风险操作，毕竟有了系统最高权限，像删除文件、涉及金钱交易、执行高危命令这类操作，得让用户手动确认，或通过分级模式（比如极客模式、小白模式）降低使用门槛

以上纯属"臆想"，至少现阶段(2025 年底)很多要求都无法达到，期待 AI 快速发展的未来，能出现更多可能性，也希望手机厂商和软件厂商能多些开放合作，做出体验更好的 AI 手机。

一点思考和随想，仅作记录，顺便分享到 v2 ，原文博客链接： https://blanke.me/blog/ai-doubao-phone/

第 1 条附言 · 1 天前

晚上看到 B 站有了更技术向的原理分析视频，仅作分享: [ [老戴] 豆包手机到底在看你什么？我抓到了它的真实工作流程-哔哩哔哩] https://b23.tv/9GnNZqz

豆包手机

自动化

2 条回复 • 2025-12-10 14:14:18 +08:00

MacsedProtoss

1 天前 via iPhone

离线运行就不可能，更别提啥别的了
而且这真的是未来形态吗？并不见得。如果还是要模拟人操控 app ，那就不是未来的方向

shyrock

1 天前

AI 功能由 OS 实现，就意味着大部分 APP 交出了入口，成为后台服务提供者。

而手机厂商反而从底层翻到了最上层，掌控一切流量。

这个商业模式的障碍极难突破。