V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
hello267015
V2EX  ›  程序员

苹果说激活 siri 的语音指令由“Hey Siri”换成“Siri”有很大的技术难度

  •  
  •   hello267015 · 82 天前 · 5334 次点击
    这是一个创建于 82 天前的主题,其中的信息可能已经有所发展或是发生改变。

    有懂这方面大佬给科普下吗

    这难在哪???

    CURD 码农表示不就是把激活的判断条件改一下吗 😂😂😂

    36 条回复    2022-11-11 21:17:08 +08:00
    god7d
        1
    god7d  
       82 天前
    很显然不是啊,虽然我也不懂,但是你想一下条件越多肯定是越准确的,2 个变成一个会让难度有一个量级的提升吧
    huangqihong
        2
    huangqihong  
       82 天前   ❤️ 1
    你这让我想起昨天和同学打电话,应该是说 crv ,平板的 siri 开启了。。。。。我一脸懵逼
    mxT52CRuqR6o5
        3
    mxT52CRuqR6o5  
       82 天前   ❤️ 6
    你改短了之后,排除假阳 case 会更困难,就比如如何保证在说 seriously 的时候不触发 siri (说的快的时候中间的那个『儿』音就不一定能很清楚的发音出来,就会比较接近 siri )
    ospider
        4
    ospider  
       82 天前   ❤️ 1
    「 Hey, Siri!」唤醒只需要判断是否说了两个词,而「 Siri!」需要判定是否是在唤醒 Siri ,还是提到了 Siri 。

    举个例子,小爱同学就没有判断「小爱同学」这四个字是否在唤醒她,所以在句中提到她的时候就会唤醒,相信有小爱音箱的都有经历。苹果要做到的应该是说话中间提到 Siri 不会唤醒 Siri ,只有目的是唤醒 Siri 才会唤醒。
    deanguqiang
        5
    deanguqiang  
       82 天前   ❤️ 7
    Siri 的时间太短了。一般来为了做到很低的功耗,VAD 会做成多级唤醒:先检测有没有声音 -> 检测有没有人声 -> 检查是不是设定的唤醒词。有可能到达唤醒词这一阶段,HEY 已经丢掉或者不完整了。假如唤醒词只有 SIRI 那么成功率将大大降低。
    大部分的唤醒词都是有一定持续时间、多个音节的,比如 HEY SIRI 、小度小度、小爱同学、天猫精灵,是有原因的。
    janus77
        6
    janus77  
       82 天前
    我的想法是 hey 这个词一般人不常说(只有在刚见面的时候会说一下,正常对话中完全不会说),所以 hey 这个词很适合被用来做标记词(日常说的频率少,发音也简单,和其发音相似的词也挺少,尤其是在一句话开头的时候)
    标记词用于唤起,可以同时保证唤起的成功率和低误伤率
    而现在标记词改成了 siri ,这些优点几乎全部没有了
    docx
        7
    docx  
       82 天前 via iPhone
    误触发概率会变大吧
    newaccount
        8
    newaccount  
       82 天前
    有没有可能 hey 这个发音在声音的波形上是一个很明显的尖峰...
    HeyWeGo
        9
    HeyWeGo  
       82 天前
    给 siri 换个名字吧,比如说:pineapple
    gdfsjunjun
        10
    gdfsjunjun  
       82 天前
    嘿 Siri 就三个字,长度足够了,就 Siri 我都怕误触,比如看视频有人介绍 Siri 怎样的时候,老是误触,嘿 Siri 就不会出现这样的问题,平时说话不太可能触发。

    反而小爱同学四个字过长,而且看视频总是触发,特别烦
    xingyuc
        11
    xingyuc  
       82 天前
    @HeyWeGo 我觉得不如 applepen
    ShinomiyaKaguya
        12
    ShinomiyaKaguya  
       82 天前 via iPhone
    最新测试版系统,已经不用喊 hey 了,直接 siri 就能唤醒
    bthulu
        13
    bthulu  
       82 天前   ❤️ 1
    @gdfsjunjun 怎么可能会误触发. 已唤醒 siri 的情况下不重复唤醒不久解决了
    marcong95
        14
    marcong95  
       82 天前
    楼上讨论 Hey 这个词本身的,友情提示一下,如果把 Siri 语言设置成粤语,唤醒词是「喂,Siri 」。所以 Hey 这个词的特征应该不是作为唤醒词的原因。
    Vtwoguest
        15
    Vtwoguest  
       82 天前
    口令越短越难判定 最重要的是 Hey 不是 Hey 的这个词多特殊 而是我们日常交流很少说 Hey 误判几率很小
    cy1027
        16
    cy1027  
       82 天前
    语音识别已经很成熟了,但是为什么还没有什么像样的语义识别,区别就在这里
    gdfsjunjun
        17
    gdfsjunjun  
       82 天前
    不符合习惯,当你提到某个人的名字并不代表你在叫他。

    比如,说一声嘿,小爱。这就很明确你在叫他。

    但是,当你对某个人评价的时候,你虽然提到了名字,但并不是在叫他,甚至他不在场也行。

    比如,你讨论小爱同学人品怎样怎样,你根本就没在叫他这个人好吧,但是音箱就是回应了
    anonymous2351d00
        18
    anonymous2351d00  
       82 天前   ❤️ 4
    改成 system call 吧
    okakuyang
        19
    okakuyang  
       82 天前
    苹果都是用神经网络去做识别的。缩短了词,输入就少了很多信息。重新找一批实验者录音,训练模型,改进算法,检验效果。这一套流程要全部走一遍。
    ghs55kai
        20
    ghs55kai  
       82 天前 via iPhone   ❤️ 1
    你比印度阿三还懂
    cyningxu
        21
    cyningxu  
       82 天前
    个人感觉这个应该和误唤醒相关。hey siri 音节多便于识别且日常生活中较少使用,但 siri 音节少识别较难,且相较 hey siri 而言使用频率会高很多。比如“我感觉 siri 挺智能的”,但较少人会说“我感觉 hey siri 挺智能的”。如果仅是将==右边由“hey siri”改为“siri”,没有其他方面的提升,那这个使用体验会大打折扣。感觉苹果应该是在这方面下了很大的功夫,用以保证至少在他们的测试流程里,“hey siri”和“siri”的误唤醒率差不多。以上为个人见解,若有误望轻拍。
    admpubcom
        22
    admpubcom  
       82 天前 via iPhone
    @bthulu cc @小爱音箱开发人员
    ajyz
        23
    ajyz  
       82 天前 via iPhone
    音节越短,容错越低
    ThinkMan
        24
    ThinkMan  
       82 天前
    之前在国内过 AI 语音行业。
    当时我们中文推荐的是 3-5 个字,2 个字坚决拒绝(主要是误唤醒率非常高)。4 个字算是最佳,能平衡唤醒率、和误唤醒率,且“ABCD”好过“ABAB”、“AABB”等类型唤醒词。
    当然手机上,除了做唤醒识别之外还会加声纹识别,以减少误唤醒。
    nightwitch
        25
    nightwitch  
       82 天前 via Android
    在连续的数据里识别分析,难点不在于某个片段的识别准确率,难点在于从连续数据里找出片段的起始和结束。
    Iamsonny
        26
    Iamsonny  
       82 天前
    唤醒词越短,技术难度越高,误唤醒率太高了。
    ixcode
        27
    ixcode  
       81 天前
    只要还需要唤醒词,人工智障永远都是智障
    AOK123
        28
    AOK123  
       81 天前
    所以谷歌还是明智很多,直接叫 Alexa ,个人感觉误判率比 Hey Siri 都低。。。
    HolliZod
        29
    HolliZod  
       81 天前
    没那么简单的,大多数公司都只能实现四个音节,苹果三个音节已经独步很久了
    lbingl
        30
    lbingl  
       81 天前 via Android
    @AOK123 Alexa 是亚马逊的,谷歌的也是 Hey Google
    yaoyao1128
        31
    yaoyao1128  
       81 天前 via iPhone
    @AOK123
    @lbingl
    Alexa 是亚马逊,但是谷歌在不同地区的官方唤醒词分为 okey google 和 hey google 两种(甚至英语不同地区不同……),之后理论上都能用

    @marcong95 同意,并且韩语的唤醒是 siri 呀

    个人认为唤醒的问题是,以前本身是由语气词进行的主体判断。当 siri 这个词独自出现时的误唤醒概率因为一定需要语气词所以降低了。大概的逻辑就是碰到 siri 不说话,但是 siri 和固定的语气词在一起了那大概就是叫 siri 了。
    yytbob
        32
    yytbob  
       81 天前
    别人提你名字的时候不一定是在叫你,也可能是在你别后谈论你。Hey Siri 可以排除这个情况。
    abvatous
        33
    abvatous  
       81 天前
    主要是为了防止被误唤醒吧
    weizhen199
        34
    weizhen199  
       81 天前   ❤️ 2
    Siri 很明显是个昵称嘛,叫 Siri 全名就行
    Speech Interpretation & Recognition Interface

    (逃
    laqow
        35
    laqow  
       81 天前
    不外乎优化一下模型,就是懒得弄而已,以后编不下去了加个 if 就是个卖点
    dreamkuo
        36
    dreamkuo  
       81 天前
    苹果可以唤醒+内容同时执行, 别的要先唤醒进入监听状态,然后再说内容
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   我们的愿景   ·   广告投放   ·   实用小工具   ·   1727 人在线   最高记录 5497   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 53ms · UTC 13:53 · PVG 21:53 · LAX 05:53 · JFK 08:53
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.