如果能用 LLM 控制自己的手机就好了

325 天前
 masellum

今天又一次忘记记账的时候想到如果手机能自己帮我记账就方便多了;虽然已经有很多自动化方案,但是都不够自然。又仔细一想,实际上现在的 LLM 等技术已经可以实现这个功能了,只是没有人 /厂家有意愿 /能力做这个集成。比如说,如果手机可以以纯文字交互(这一点利用无障碍等技术也可以实现了),LLM 就可以自由控制手机,那么就可以实现像 “Hey Siri, do anything” 的效果,或者就像微软宣布的将会集成进 Windows 的 Copilot 的手机同位体。

但是另一方面,手机系统厂家基本上不可能做这种功能。文字式交互界面实际上在 iOS 端上的无障碍 /朗读功能中就已经实现了,但是 iOS 一定不会像 Android 一样向一般应用开放无障碍权限,并且苹果也几乎一定不会引入这种功能;另一方面,具有无障碍访问权限的 Android 并不能像 iOS 一样保证无障碍的覆盖率。最后,如果没有这些系统厂家本身做集成支持,个人是几乎没办法实现这种功能的。我目前能想到的唯一的可能性是通过机械手触摸或者远程调试控制开启无障碍的 iPhone ,然后语音识别旁白读出的内容,再整理成文字后让 LLM 选择,最后再由机械手或者调试界面操作;这些技术都是相对成熟的。(不过这种想法很适合让某同学之类的 up 主出一期跟热点的视频)

所以想想觉得真的很可惜,明明用于实现的每一项技术都是成熟的,但是却难以将其集成起来。好希望我的智能终端里可以住进一个真正的智能助理,而不是脑残一样的 Siri 。

1431 次点击
所在节点    奇思妙想
5 条回复
czfy
325 天前
iOS 不用想了,Apple 没那个能力(虽然果粉嘴里 Siri 收集了巨量真实数据,Apple 已经研发出来天网级别的 Siri ,只是不知道为什么没有发布)

Android 是有可能的,因为国外都是用 Google 全家桶,有 Google Assistant ,哪天 Google 把现在投资的 Anthropic 收购了可以做整合,靠自己的 Bard 就挺难
至于国内安卓,各手机厂商自己肯定做不了,落地上相对有可能的是和百度阿里之类的合作,但数据就要给出去,手机厂商自己应该也不愿意。如果厂商愿意,OP 你愿意把手机所有行为数据给百度阿里么
maemolee
325 天前
你要的是高级版的 Siri 啊
Biluesgakki
324 天前
我也想用这种,昨天吃烤鸡两只手戴着手套, 很想用语音让 siri 帮我刷抖音 哈哈哈
noahhhh
322 天前
我感觉车机会先一步有这个功能,另外和楼主讲的一样,不同组件权限
noahhhh
322 天前
@noahhhh 怎么划分确认,操作有多少需要用户授权确认,想想还挺复杂

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/946923

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX