现在是否已经有文本阅读达到真人效果的技术

2022-10-16 09:17:52 +08:00
 davinci21s

刷抖音看到很多不同的内容解说,但是发音听起来像是同一个人,猜测是用了文本阅读技术,解说的很自然,听起来

就是真人发音,但是以往的印象文本阅读都是很有机器人味道的,不自然,没有感情。

所以说现在是技术进步了?

3181 次点击
所在节点    分享发现
18 条回复
superrichman
2022-10-16 09:20:58 +08:00
用的是微软的 tts ,你用 edge 浏览器就能体验到。
vbs
2022-10-16 09:25:48 +08:00
你试试这个页面里面的 demo ,自然就知道了: https://azure.microsoft.com/zh-cn/products/cognitive-services/text-to-speech/#features
vbs
2022-10-16 09:26:54 +08:00
而且可以更换说话风格哟,比如可以用“惊恐”得语调阅读
cmdOptionKana
2022-10-16 09:27:21 +08:00
是,番茄小说的 AI 朗读技术真的吓到我了,可以有男女老少不同角色,可以选择东北话、四川话之类的发音习惯,而且每句话还可以有愤怒、愉悦、冷漠等不同的语气,而这些,都是用 AI 做的(不知道其中人工标记工作量大不大)。

但是,只有少量书有多角色 AI ,我猜高质量的 AI 阅读渲染成本比较高,但能做出来,而且已经商用了。

但是也有难点没有克服,主要就是中文里的多音字,这个是重灾区,经常念错。
davinci21s
2022-10-16 09:28:21 +08:00
@superrichman thx
@vbs 刚刚试了一下,确实很像。
LZSZ
2022-10-16 09:44:31 +08:00
见过手动设置角色语音的 demo , 但是小说要是手动设置的话那也太痛苦了。
kingjpa
2022-10-16 09:49:00 +08:00
除了生僻字,多音字, 其他已经远超你的想象了。远比 siri 和小爱哪这种强得多
zlzhdark
2022-10-16 10:00:31 +08:00
你听到的绝对是微软文本转语音,声优还必须是云希
GuuJiang
2022-10-16 10:19:26 +08:00
注意看,这个男人叫小帅
eason1874
2022-10-16 10:27:04 +08:00
角色选播音主持人,已经可以做到听不出来跟真实主持人的区别

其他角色还是不太行,单摘几句出来可以说跟真人一模一样,但是一大段还是能听出来是 AI ,因为 AI 很稳定,而普通人讲话久了是时快时慢的,前后语速和停顿有差异,AI 没有差异就过于完美就缺少真实感了
TimePPT
2022-10-16 10:28:50 +08:00
看标题以为讨论的是机器阅读理解,结果是 TTS😂

中文 TTS 的话,其实大多数厂商就是可用水平。效果好的也就是微软和阿里。主要这玩意想调教好烧钱。
ho121
2022-10-16 10:33:31 +08:00
还记得上学时的英语磁带么?
tqyq88
2022-10-16 10:37:04 +08:00
机器人?
啊,怎么会呢,肯定是员工给你打电话的啦。
我们联通都是经过统一严格的培训的。
zagfai
2022-10-16 13:56:00 +08:00
@ho121 那个是真人的吧?
ZE3kr
2022-10-16 14:02:33 +08:00
现在每次接到推销电话,我第一句话就问“你是真人吗?”,有时候图省事就直接问“你是人吗?”,不知道有没有冒犯到真的人😂主要还是 AI 太强了
intelmd
2022-10-16 14:12:55 +08:00
哈哈,果然是云希!
dobelee
2022-10-16 14:14:09 +08:00
某音上见过挺过非常好的 AI ,有的已经几乎听不出机器感,并且音色还非常个性,不过不清楚哪个平台的服务。
dxgfalcongbit
2022-10-17 16:44:04 +08:00
我觉得 edge 那个阅读就不错,edge 改内核后这个功能停了一段时间,记得不久前才续上。

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/887240

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX