有没有现成的工具可以把字幕文件转换成相应的音频

2020-07-21 12:29:47 +08:00
 sneezry
通过 AI 识别音频生成字幕的工具有现成的,单纯的文字转换成语音的服务也有很多。可是有基于字幕文件生成符合时间轴的音频的服务或者工具吗?

我在做一个操作示例视频,为了让观看的人有更好的体验,我希望能通过成熟的文字转语音服务配上相对标准的英文配音。一句一句调语速,对时间轴是一个很大的工作量,不知道有没有现成的工具或者服务可以使用?
1053 次点击
所在节点    问与答
4 条回复
aec4d
2020-07-21 12:35:10 +08:00
调 tts api 应该 50 行代码能够解决
whileFalse
2020-07-21 13:14:13 +08:00
关键从字幕中没法正确地获得语速和发音人。
首先当两个人对话的时候,字幕通常不包含发音人信息,所以你是不是能接受明明是两个人的对话,转出来的音频却是一个人自说自话?
其次语速,如果是两个人几乎同时说话,字幕中的信息只能看出是一句话之后半秒下一句就开始说了,那么程序会不会认为上一句的语速很快,半秒就说完了?

在存在这些问题的情况下,“字幕转音频”这个需求没法产品化;虽然就 LZ 的需求来看,不存在上述的几个问题。
MooRider
2020-07-21 13:25:23 +08:00
之前看谷歌的那个人工智能学习视频, 里面的语音翻译就是用的机器学习的发音, 语速和准确度都还行, 不知道能不能个人用 https://developers.google.com/machine-learning/crash-course/ml-intro?hl=zh-cn
但识别两个人的对话似乎很难吧
zhouweiluan
2020-07-21 14:02:11 +08:00
上次坛子里有人推过一个,可以去看看:
https://www.v2ex.com/t/690199
网址:
https://www.mu-yan.net

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/691865

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX