V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
davinci21s
V2EX  ›  分享发现

现在是否已经有文本阅读达到真人效果的技术

  •  
  •   davinci21s · 2022-10-16 09:17:52 +08:00 · 3128 次点击
    这是一个创建于 529 天前的主题,其中的信息可能已经有所发展或是发生改变。

    刷抖音看到很多不同的内容解说,但是发音听起来像是同一个人,猜测是用了文本阅读技术,解说的很自然,听起来

    就是真人发音,但是以往的印象文本阅读都是很有机器人味道的,不自然,没有感情。

    所以说现在是技术进步了?

    第 1 条附言  ·  2022-10-16 11:26:56 +08:00
    第 2 条附言  ·  2022-10-16 11:54:54 +08:00
    自媒体利器,好好利用吧。
    18 条回复    2022-10-17 16:44:04 +08:00
    superrichman
        1
    superrichman  
       2022-10-16 09:20:58 +08:00 via Android   ❤️ 2
    用的是微软的 tts ,你用 edge 浏览器就能体验到。
    vbs
        2
    vbs  
       2022-10-16 09:25:48 +08:00
    你试试这个页面里面的 demo ,自然就知道了: https://azure.microsoft.com/zh-cn/products/cognitive-services/text-to-speech/#features
    vbs
        3
    vbs  
       2022-10-16 09:26:54 +08:00
    而且可以更换说话风格哟,比如可以用“惊恐”得语调阅读
    cmdOptionKana
        4
    cmdOptionKana  
       2022-10-16 09:27:21 +08:00
    是,番茄小说的 AI 朗读技术真的吓到我了,可以有男女老少不同角色,可以选择东北话、四川话之类的发音习惯,而且每句话还可以有愤怒、愉悦、冷漠等不同的语气,而这些,都是用 AI 做的(不知道其中人工标记工作量大不大)。

    但是,只有少量书有多角色 AI ,我猜高质量的 AI 阅读渲染成本比较高,但能做出来,而且已经商用了。

    但是也有难点没有克服,主要就是中文里的多音字,这个是重灾区,经常念错。
    davinci21s
        5
    davinci21s  
    OP
       2022-10-16 09:28:21 +08:00
    @superrichman thx
    @vbs 刚刚试了一下,确实很像。
    LZSZ
        6
    LZSZ  
       2022-10-16 09:44:31 +08:00
    见过手动设置角色语音的 demo , 但是小说要是手动设置的话那也太痛苦了。
    kingjpa
        7
    kingjpa  
       2022-10-16 09:49:00 +08:00
    除了生僻字,多音字, 其他已经远超你的想象了。远比 siri 和小爱哪这种强得多
    zlzhdark
        8
    zlzhdark  
       2022-10-16 10:00:31 +08:00
    你听到的绝对是微软文本转语音,声优还必须是云希
    GuuJiang
        9
    GuuJiang  
       2022-10-16 10:19:26 +08:00 via iPhone   ❤️ 6
    注意看,这个男人叫小帅
    eason1874
        10
    eason1874  
       2022-10-16 10:27:04 +08:00
    角色选播音主持人,已经可以做到听不出来跟真实主持人的区别

    其他角色还是不太行,单摘几句出来可以说跟真人一模一样,但是一大段还是能听出来是 AI ,因为 AI 很稳定,而普通人讲话久了是时快时慢的,前后语速和停顿有差异,AI 没有差异就过于完美就缺少真实感了
    TimePPT
        11
    TimePPT  
       2022-10-16 10:28:50 +08:00 via Android
    看标题以为讨论的是机器阅读理解,结果是 TTS😂

    中文 TTS 的话,其实大多数厂商就是可用水平。效果好的也就是微软和阿里。主要这玩意想调教好烧钱。
    ho121
        12
    ho121  
       2022-10-16 10:33:31 +08:00 via Android
    还记得上学时的英语磁带么?
    tqyq88
        13
    tqyq88  
       2022-10-16 10:37:04 +08:00
    机器人?
    啊,怎么会呢,肯定是员工给你打电话的啦。
    我们联通都是经过统一严格的培训的。
    zagfai
        14
    zagfai  
       2022-10-16 13:56:00 +08:00
    @ho121 那个是真人的吧?
    ZE3kr
        15
    ZE3kr  
       2022-10-16 14:02:33 +08:00 via iPhone
    现在每次接到推销电话,我第一句话就问“你是真人吗?”,有时候图省事就直接问“你是人吗?”,不知道有没有冒犯到真的人😂主要还是 AI 太强了
    intelmd
        16
    intelmd  
       2022-10-16 14:12:55 +08:00 via Android
    哈哈,果然是云希!
    dobelee
        17
    dobelee  
       2022-10-16 14:14:09 +08:00
    某音上见过挺过非常好的 AI ,有的已经几乎听不出机器感,并且音色还非常个性,不过不清楚哪个平台的服务。
    dxgfalcongbit
        18
    dxgfalcongbit  
       2022-10-17 16:44:04 +08:00 via Android
    我觉得 edge 那个阅读就不错,edge 改内核后这个功能停了一段时间,记得不久前才续上。
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   我们的愿景   ·   实用小工具   ·   4337 人在线   最高记录 6543   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 28ms · UTC 10:12 · PVG 18:12 · LAX 03:12 · JFK 06:12
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.