找到了 iOS 被怀疑淘宝窃听的可能原因

2021-09-18 03:43:28 +08:00
 imlibra
之前这样的帖子一直不少,刚刚又听到了群里的朋友怀疑这一点,对方确定没有搜索或通过其他方法暴露关键词,就后台通过语音被推荐。

Siri 在中国的服务器实际上是基于阿里云的 (guzzoni.apple.com 39.102.96.186)。39.102.96.x 被我确定是一个阿里云 vps 的段。

虽然我不确定这个 siri 服务器有没有直接接触未加密的语音数据,或是语音数据被从设备上加密然后传送到苹果的其他地方。但根据 iOS 8 的 Siri 协议(那时候 Siri 还没有 SSL pinning ),语音数据是直接被这个服务器接触的,参考 https://www.theiphonewiki.com/wiki/Siri_Protocol

我通过抓包实验了一下,在路由器上 tcpdump 所有 443 端口,并且对着 iPhone 说了一些和 hey siri 语音上比较类似的话,比如一句话中包括”hey sir”等。以下为 tcpdump 记录,这个 IP 在说话时出现了多次: https://gist.github.com/imlibra/463c3890d4c7675f1c9580f043b25688

之后我还准备通过越狱绕过 SSL pinning 对最新的 Siri 协议做研究,以确认这一点。
9844 次点击
所在节点    分享发现
87 条回复
dingwen07
2021-09-18 03:58:43 +08:00
苹果的说法是上传之前都移除了识别信息

> 您的请求历史记录会与设备生成的随机标识符关联六个月。您的请求历史记录可能会包括转录文本、选择参与“改进 Siri 和听写”的用户的音频以及相关的请求数据,如设备规格、性能统计数据和提出请求时设备的大致位置。六个月后,您的请求历史记录不再与随机标识符关联并可能保留最多两年,以帮助 Apple 开发和改进 Siri 、听写和其他语言处理功能,如语音控制。一小部分已核查的请求可能会在不包含随机标识符的条件下保留超过两年,以用于 Siri 的后续改进。

当然服务器那边可以通过 IP 地址进行一定程度的识别和追踪。

我个人觉得云服务提供商是不敢这么做的吧,万一被发现那就没人会用你的服务了。
imlibra
2021-09-18 04:01:09 +08:00
@dingwen07 但是淘宝是可以直接通过 IP 来匹配啊(阿里云的 IP,VPS 上的语音数据和淘宝的连接 IP )
imlibra
2021-09-18 04:02:13 +08:00
@dingwen07 感觉苹果对中国妥协这么多还不如直接退出中国,我真的很不想用了
imlibra
2021-09-18 04:10:19 +08:00
@dingwen07 其实仔细想想,这样不仅可以用来做推广,都可以直接被中国相关部门用来学习声纹库了,因为 IP 地址肯定是实名的。

苹果不用自家 17 段或 AWS 、Google Cloud 等却用阿里云,他们自然是知道这样的后果的。
namelosw
2021-09-18 04:19:27 +08:00
这个听起来理论上好像是可行的…… 恐怖。只要大概一天内用了 Siri 和淘宝应该就能认出来。

当然不太确定是不是苹果是不是自己有一些交换 key 的方式让阿里云不可能解密或者拿到未加密数据。

不过我很久以前所有的设备一拿到就把 Siri 禁用了,而且我很多年也不用淘宝了,所以不太确定我有没有这个现象。
imlibra
2021-09-18 04:23:33 +08:00
@namelosw 至少在 iOS 8 中是没有的,直接经过 Opus 编码压缩后通过 https 发送。至于新的 iOS 版本有没有,我准备通过越狱绕过 SSL pinning 研究一下。

无论如何,在云上贵州之后,苹果做什么都已经让我毫不意外了。
elfive
2021-09-18 07:39:02 +08:00
1. HomePod 全局翻
2. 手机在外面基本没用过 siri (反应太慢,没有全局翻),在家会把请求中继给 HomePod 。
3. MBP 、Apple TV 不用 Siri

一直这么用,基本不会遇到那么严重的泄漏。
Netfix
2021-09-18 07:54:24 +08:00
不用国区就不用签云上贵州的协议 多简单。
imlibra
2021-09-18 07:58:52 +08:00
@Netfix 我是美区仍然如此。
zmxnv123
2021-09-18 08:04:10 +08:00
我比较怀疑的是阿里直接监听客户服务器的数据,这种事如果爆出去还能做生意吗。
至少我觉得苹果应该不会主动卖 Siri 信息。
snw
2021-09-18 08:10:19 +08:00
我以前一直以为在 Hey Siri 唤醒之前,Siri 只是在本地监听捕捉 Hey Siri 词组,唤醒后才会发到云端识别,现在看楼主的 tcpdump 困惑了。
minamike
2021-09-18 08:11:54 +08:00
把淘宝删了一了百了
能用网页版就用网页版
实在要用 App 的时候临时下载一下
maskerTUI
2021-09-18 08:50:48 +08:00
我觉得阿里马上就会出来否认了
iloveoovx
2021-09-18 08:57:30 +08:00
那在国内如何安全地用 iPhone 呢,除了比如换美区 id,还需要做什么事呢
ostrichb
2021-09-18 09:00:26 +08:00
@iloveoovx 全局入欧?
quanqiubiannuan
2021-09-18 09:05:55 +08:00
这叫大数据!
justfindu
2021-09-18 09:09:05 +08:00
还有两点要排除
你通过 Siri 说话, 然后他进行了默认搜索, 默认搜索用的 Safari , 国行手机默认是百度, 然后被识别了.
如果给了淘宝相册相机权限之后, 他会读你的截图, 第一张图.
imlibra
2021-09-18 09:29:16 +08:00
@snw 只要满足一定的触发条件会上传识别的,参考 https://m.mydrivers.com/newsview/643668.html
Webpoplayer
2021-09-18 09:30:47 +08:00
果然..害,只能这么想了
'我都上淘宝了,要啥隐私..'
Leonard
2021-09-18 09:31:18 +08:00
Siri 关掉就行了

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/802660

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX