有没有现成的工具可以把字幕文件转换成相应的音频

通过 AI 识别音频生成字幕的工具有现成的，单纯的文字转换成语音的服务也有很多。可是有基于字幕文件生成符合时间轴的音频的服务或者工具吗？

我在做一个操作示例视频，为了让观看的人有更好的体验，我希望能通过成熟的文字转语音服务配上相对标准的英文配音。一句一句调语速，对时间轴是一个很大的工作量，不知道有没有现成的工具或者服务可以使用？

aec4d

2020-07-21 12:35:10 +08:00

调 tts api 应该 50 行代码能够解决

whileFalse

2020-07-21 13:14:13 +08:00

关键从字幕中没法正确地获得语速和发音人。
首先当两个人对话的时候，字幕通常不包含发音人信息，所以你是不是能接受明明是两个人的对话，转出来的音频却是一个人自说自话？
其次语速，如果是两个人几乎同时说话，字幕中的信息只能看出是一句话之后半秒下一句就开始说了，那么程序会不会认为上一句的语速很快，半秒就说完了？

在存在这些问题的情况下，“字幕转音频”这个需求没法产品化；虽然就 LZ 的需求来看，不存在上述的几个问题。

MooRider

2020-07-21 13:25:23 +08:00

之前看谷歌的那个人工智能学习视频, 里面的语音翻译就是用的机器学习的发音, 语速和准确度都还行, 不知道能不能个人用 https://developers.google.com/machine-learning/crash-course/ml-intro?hl=zh-cn
但识别两个人的对话似乎很难吧

zhouweiluan

2020-07-21 14:02:11 +08:00

上次坛子里有人推过一个，可以去看看：
https://www.v2ex.com/t/690199
网址：
https://www.mu-yan.net

这是一个专为移动设备优化的页面（即为了让你能够在 Google 搜索结果里秒开这个页面），如果你希望参与 V2EX 社区的讨论，你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/691865

V2EX 是创意工作者们的社区，是一个分享自己正在做的有趣事物、交流想法，可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.