苹果说激活 siri 的语音指令由“Hey Siri”换成“Siri”有很大的技术难度

2022-11-10 11:25:59 +08:00
 hello267015

有懂这方面大佬给科普下吗

这难在哪???

CURD 码农表示不就是把激活的判断条件改一下吗 😂😂😂

5935 次点击
所在节点    程序员
36 条回复
god7d
2022-11-10 11:29:48 +08:00
很显然不是啊,虽然我也不懂,但是你想一下条件越多肯定是越准确的,2 个变成一个会让难度有一个量级的提升吧
huangqihong
2022-11-10 11:31:13 +08:00
你这让我想起昨天和同学打电话,应该是说 crv ,平板的 siri 开启了。。。。。我一脸懵逼
mxT52CRuqR6o5
2022-11-10 11:33:38 +08:00
你改短了之后,排除假阳 case 会更困难,就比如如何保证在说 seriously 的时候不触发 siri (说的快的时候中间的那个『儿』音就不一定能很清楚的发音出来,就会比较接近 siri )
ospider
2022-11-10 11:39:28 +08:00
「 Hey, Siri!」唤醒只需要判断是否说了两个词,而「 Siri!」需要判定是否是在唤醒 Siri ,还是提到了 Siri 。

举个例子,小爱同学就没有判断「小爱同学」这四个字是否在唤醒她,所以在句中提到她的时候就会唤醒,相信有小爱音箱的都有经历。苹果要做到的应该是说话中间提到 Siri 不会唤醒 Siri ,只有目的是唤醒 Siri 才会唤醒。
deanguqiang
2022-11-10 11:40:39 +08:00
Siri 的时间太短了。一般来为了做到很低的功耗,VAD 会做成多级唤醒:先检测有没有声音 -> 检测有没有人声 -> 检查是不是设定的唤醒词。有可能到达唤醒词这一阶段,HEY 已经丢掉或者不完整了。假如唤醒词只有 SIRI 那么成功率将大大降低。
大部分的唤醒词都是有一定持续时间、多个音节的,比如 HEY SIRI 、小度小度、小爱同学、天猫精灵,是有原因的。
janus77
2022-11-10 11:40:47 +08:00
我的想法是 hey 这个词一般人不常说(只有在刚见面的时候会说一下,正常对话中完全不会说),所以 hey 这个词很适合被用来做标记词(日常说的频率少,发音也简单,和其发音相似的词也挺少,尤其是在一句话开头的时候)
标记词用于唤起,可以同时保证唤起的成功率和低误伤率
而现在标记词改成了 siri ,这些优点几乎全部没有了
docx
2022-11-10 11:56:05 +08:00
误触发概率会变大吧
newaccount
2022-11-10 12:43:19 +08:00
有没有可能 hey 这个发音在声音的波形上是一个很明显的尖峰...
HeyWeGo
2022-11-10 12:46:14 +08:00
给 siri 换个名字吧,比如说:pineapple
gdfsjunjun
2022-11-10 12:58:23 +08:00
嘿 Siri 就三个字,长度足够了,就 Siri 我都怕误触,比如看视频有人介绍 Siri 怎样的时候,老是误触,嘿 Siri 就不会出现这样的问题,平时说话不太可能触发。

反而小爱同学四个字过长,而且看视频总是触发,特别烦
xingyuc
2022-11-10 13:03:00 +08:00
@HeyWeGo 我觉得不如 applepen
ShinomiyaKaguya
2022-11-10 13:08:55 +08:00
最新测试版系统,已经不用喊 hey 了,直接 siri 就能唤醒
bthulu
2022-11-10 13:13:18 +08:00
@gdfsjunjun 怎么可能会误触发. 已唤醒 siri 的情况下不重复唤醒不久解决了
marcong95
2022-11-10 13:38:26 +08:00
楼上讨论 Hey 这个词本身的,友情提示一下,如果把 Siri 语言设置成粤语,唤醒词是「喂,Siri 」。所以 Hey 这个词的特征应该不是作为唤醒词的原因。
Vtwoguest
2022-11-10 15:56:52 +08:00
口令越短越难判定 最重要的是 Hey 不是 Hey 的这个词多特殊 而是我们日常交流很少说 Hey 误判几率很小
cy1027
2022-11-10 16:16:17 +08:00
语音识别已经很成熟了,但是为什么还没有什么像样的语义识别,区别就在这里
gdfsjunjun
2022-11-10 16:17:20 +08:00
不符合习惯,当你提到某个人的名字并不代表你在叫他。

比如,说一声嘿,小爱。这就很明确你在叫他。

但是,当你对某个人评价的时候,你虽然提到了名字,但并不是在叫他,甚至他不在场也行。

比如,你讨论小爱同学人品怎样怎样,你根本就没在叫他这个人好吧,但是音箱就是回应了
anonymous2351d00
2022-11-10 16:21:16 +08:00
改成 system call 吧
okakuyang
2022-11-10 18:18:40 +08:00
苹果都是用神经网络去做识别的。缩短了词,输入就少了很多信息。重新找一批实验者录音,训练模型,改进算法,检验效果。这一套流程要全部走一遍。
ghs55kai
2022-11-10 18:21:58 +08:00
你比印度阿三还懂

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/894081

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX