各位用哪家的 TTS 引擎,有没有可以根据语气情感进行发声的

2022-07-22 09:38:15 +08:00
 James369

文字转语音,现在有很多厂都有相关 SDK/API 可以使用,但很多都像机器人一样没有感情的在念。想了解下有没有真正基于 NLP 技术的,带情感语气的。

比如,下面 2 行文本:

1. 她脸色大变,生气地说:“给我滚出去”。
2. 他轻声地说:“嘘,我们从后门偷偷溜进去”。

那么,TTS 在朗读第 1 句的时候,应该是语气比较重,比较大声急促。而朗读第 2 句的时候,应该是比较轻声,轻缓的。这样长时间听下来,用户也就不会犯困了。

4590 次点击
所在节点    程序员
26 条回复
James369
2022-07-22 17:28:07 +08:00
@jstony SSML 要能够自动生成,这样才能自动化
lonewolfakela
2022-07-22 18:00:08 +08:00
@James369 #10 1L 和 2L 发的那个地址上有个 demo ,语音选“云枫(预览)”
rpman
2022-07-22 22:30:48 +08:00
@xieyqxie 很多商业 TTS 都有了,我在前司就做这个
TTS 已经卷到插呼吸停顿和重读了
Aloento
2022-07-23 02:48:39 +08:00
所以说还是 Azure 好
yinshang
2022-07-23 11:22:08 +08:00
工作原因,经常用到配音。
个人感受是微软的最好,语气什么的更贴近真人。
讯飞太拉跨了,机器感太强。
leeg810312
2022-07-23 23:04:46 +08:00
@James369 完全符合预期的语气语调来转语音是不可能自动化的,同一句话用不同语气说出来可能是完全不同的效果,现有的 nlp 是做不到这么智能判断的,不要奢望没有人工后期调整。微软 Azure 是目前 AI 提供商中这个业务做得最好的,

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/867910

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX