V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
Blanke
V2EX  ›  随想

对"豆包手机"的一点点思考(偏一点技术向)

  •  
  •   Blanke · 1 天前 · 681 次点击

    豆包手机的感想

    最近豆包手机很火,恰好看到智谱开源的 AutoGLM ,在群里吹水聊了下,记录下一点点思考。

    我虽然没有真机体验,看了 B 站很多真实用户分享的视频,还是挺激动。之前在 Github 看到过类似手机 ai 相关项目,大多技术路线差不多:通过 adb 、无障碍、root 等方式获取截图、ui 层级、设备运行信息等,然后调用远程模型(deepseek 、gpt 等),搭配内置的提示词,实现自动化操作手机。比较出名的有:Operit AIminitap-aidroidrun 等,以及这几天智谱开源的Open-AutoGLM项目,智谱和其他不同的是使用了针对手机场景训练的 AutoGLM-Phone-9B 模型。

    这些项目的原理和实现思路其实大同小异,前几个项目出来也有段时间了,我实际用过 Operit AI 。为啥选它呢?很简单,要是想体验舒服点,没人愿意一直用 adb 方式(总不能一直连电脑吧🤣),而 Operit AI 是独立 APP 方式,提供无障碍、root 等方式激活运行,能获取 UI 层级、截图、执行 shell 命令,有很多内置库和 mcp 。但我实测简单的任务可以,比如打开打开网易云音乐搜索某首歌播放、打开 B 站搜索关键词播放并点赞,整体效果比较慢,主要受模型、提示词、实现逻辑等影响。体验后就很少使用了,主要是容易出错、体验不够流畅,当时就觉得这东西应该由手机厂商去做,系统有"上帝权限",根本不用靠无障碍或 adb 去拿设备信息,再加上端侧 ai 能力,也就是离线本地运行的模型,这样能避免很多问题:运行效率、隐私性等,就是肯定会更耗电。

    豆包手机出来后,我觉得基本贴近我之前想的方案了,惊喜的是,它用了类似"虚拟屏"的技术方案,也就是 ai 操作可以放后台,后台应用能达到"前台效果",还不影响前台用户操作手机,也就是可以轻松完成以下类似场景:打游戏的时候呼出豆包助手,及时给老婆回条消息(现在不让操作微信了),B 站上好多视频都展示过类似场景,这里就不专门吹了。还有一点,豆包手机整体 ai 操作比较丝滑,但是看到有的视频里提到有使用服务器额度的提示,也没见过断网后离线使用的实测,所以猜测大概率还是远程模型+本地轻量模型的方案。

    豆包手机被限制

    发布没几天,微信、阿里这些大厂的软件就开始封禁或抵制豆包手机了,具体表现为警告、限制登录等。由于没摸到真机,网上也没有流出解锁 BL 或 Root 的方案,无法逆向分析,只能从理论层面琢磨下,以下纯属个人"臆想"。

    1. 可能的风控因素:设备硬件参数(机型、设备指纹、系统参数、环境变量等)、AI 技术特征(很多媒体提到的 INJECT_EVENTS 权限、无障碍技术的使用痕迹、"虚拟屏"的技术特征等)
    2. 可能的应对技术方案:
      • 先说明下,这是不考虑合规性和舆论风险的纯技术猜想,豆包一定不会这么做
      • 可以将设备参数随机化或伪装,既然可能风控的是努比亚 M153 参数,那么将机型参数改为努比亚 M154 或其他努比亚热门手机型号,避免被针对
      • 把技术实现改为系统层调用,避免使用无障碍等技术。既然系统都是自家开发的,那么在系统层面将 event 改成用户手动 event 轻轻松松,这样 APP 就识别不了是否是模拟操作
    3. 可能的后续发展:技术发展不能以马车视角看蒸汽机,ai 手机肯定是未来趋势,但是为了应对黑灰产、隐私性等要求,也为了守住自身的"护城河",软件厂商短期内大概率会保持保守态度。未来手机厂商和各大软件厂商大概率会牵手合作,只开放基础的 ai 操作权限,而且需要用户手动开启,手机系统也可完全关闭 AI 功能。根据以往的经验,或许这块还得靠苹果来推动,iOS 上了 Android 才有可能快速跟进,而且不用想,国内功能绝对有阉割或软件不配合。

    理想中的 AI 手机

    上面分析了豆包手机和同类开源项目的实现方案,也有其他因素(合规性、隐私性等)的限制。参照现在很多开源项目,我感觉未来也会有类似开源或极客形式的 AI 手机的方案,理想中的 AI 手机方案至少满足以下几点:

    1. 所有 AI 功能都在系统层实现,具体做法可以通过 Fork LineageOS 或开源 Rom 代码实现,也可通过类似 Xposed 模块等方式注入系统服务方式实现
    2. 支持离线运行 AI 模型,得平衡好功耗和模型能力(未来模型能力越来越强,还是很有可能的),毕竟移动设备,耗电多了也没人愿意用
    3. 系统层不依赖无障碍、Root 、adb 等,能高效获取界面和操作设备。优先通过 UI 层级(也就是 View 树,类似网页的 Dom 树)获取信息,而且要做精简,只提取有实际显示内容的 View 节点;截图方式效率低、模型处理也慢,可以考虑降低分辨率和画质;其他设备操作优先用 shell 命令获取,比如启动 APP 、发送广播、读取文件、设置定时任务这些
    4. 系统层直接实现自动化操作,模拟用户手动操作,让 APP 无法区分是自动化还是真人操作
    5. 支持 MCP 和插件,得有对开发者友好的扩展环境,搭建完善的插件生态
    6. 保障隐私,核心功能离线运行,要是有需要联网的功能,必须让用户手动确认
    7. 能识别并管控风险操作,毕竟有了系统最高权限,像删除文件、涉及金钱交易、执行高危命令这类操作,得让用户手动确认,或通过分级模式(比如极客模式、小白模式)降低使用门槛

    以上纯属"臆想",至少现阶段(2025 年底)很多要求都无法达到,期待 AI 快速发展的未来,能出现更多可能性,也希望手机厂商和软件厂商能多些开放合作,做出体验更好的 AI 手机。

    一点思考和随想,仅作记录,顺便分享到 v2 ,原文博客链接: https://blanke.me/blog/ai-doubao-phone/

    第 1 条附言  ·  1 天前
    晚上看到 B 站有了更技术向的原理分析视频,仅作分享: [ [老戴] 豆包手机到底在看你什么?我抓到了它的真实工作流程-哔哩哔哩] https://b23.tv/9GnNZqz
    2 条回复    2025-12-10 14:14:18 +08:00
    MacsedProtoss
        1
    MacsedProtoss  
       1 天前 via iPhone
    离线运行就不可能,更别提啥别的了
    而且这真的是未来形态吗?并不见得。如果还是要模拟人操控 app ,那就不是未来的方向
    shyrock
        2
    shyrock  
       1 天前
    AI 功能由 OS 实现,就意味着大部分 APP 交出了入口,成为后台服务提供者。

    而手机厂商反而从底层翻到了最上层,掌控一切流量。

    这个商业模式的障碍极难突破。
    关于   ·   帮助文档   ·   自助推广系统   ·   博客   ·   API   ·   FAQ   ·   Solana   ·   4238 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 22ms · UTC 04:05 · PVG 12:05 · LAX 20:05 · JFK 23:05
    ♥ Do have faith in what you're doing.