寻找对齐文本与音频的高效解决方案

2015-03-27 03:43:09 +08:00
 Sephinroth

[需求]
输入:一篇文本,一段与该文本对应的音频
输出:文本中的每一个句子的开始与结束在音频中所对应的时间点

[已知信息]
1. 最笨的方法:人肉对照文本和音频,把每个时间点手动记下来。
2. 存在貌似具有一定精度的自动对齐工具(但只支持英文): http://fave.ling.upenn.edu/usingFAAValign.html

[提问]
1. 是否有现成的工具可帮助提高上述“笨方法”的效率?譬如:背景播放该音频,在听到每个句子的开始和结束时按某个键“打点”;可回听之前打过的点并修改之;最后输出每个“点”所对应的时间。
2. 是否存在支持除英语外其他语种的自动对齐工具?粗略搜了下日语和德语的,暂未找到。

//bow

2734 次点击
所在节点    问与答
9 条回复
Sephinroth
2015-03-27 06:32:49 +08:00
发现在windows下或可使用如下软件让“笨方法”更有效率:
http://www.aboboo.com/docs/
(见“操作指南”下的“MP3”条目,可导出处理后的文本为srt)
msg7086
2015-03-27 06:46:32 +08:00
如果没有背景音干扰的话,自动打轴的确是可以实现的。
有背景音干扰还请手打,反正很快的。
luo362722353
2015-03-27 06:59:43 +08:00
请直接使用…纳象云字幕,这个公司的产品,提供精确到句,或者精确到字,各大电视剧,电影,电视台采用过的
luo362722353
2015-03-27 07:02:28 +08:00
1小时的片源,带字幕的,一般不超过3_5分钟吧,就能搞定的
cnbeining
2015-03-27 09:48:15 +08:00
@luo362722353 这个东西OSX上根本啥都出不来。。。
Sephinroth
2015-03-27 15:37:15 +08:00
@msg7086
thx,滚去学习字幕组打轴工具了

@luo362722353
感谢,不过这个平台的自动化功能貌似暂只支持中文和英文?手头是有日语和德语的材料需要对齐
luo362722353
2015-03-27 20:05:34 +08:00
@Sephinroth 连方言都支持,我知道的,其他语种?你联系官方问问,可能会更直接了解
dontmp
2015-03-31 16:37:13 +08:00
这是要做什么呢?
我前几年写过一个学英语App (https://play.google.com/store/apps/details?id=com.leels.splisten&hl=en), 如果有音频和对应英文文本,可以把音频分割成一句一句的,然后把对应这句话的文本也分出来,无外乎就是音频分段,语音识别然后合并什么的。这个要求比单纯的作字幕轴要求高, 字幕的时间和句子的时间可以不用绝对匹配,这个不行。日语德语什么语都能做,前提是有模型,语音识别要用。
Sephinroth
2015-03-31 23:58:11 +08:00
@dontmp

对此感兴趣主要有两个出发点:
1. 想对齐一本德语小说的文本及相应有声读物(音频长近5小时),用作自己的学习材料。
2. 想对齐一部日本电视剧的剧本及相应剧集音频(音频长约8小时),用作学习iOS开发的素材。

语音识别方面没有接触过。打算先试试Youtube自带的字幕对齐功能效果如何:
https://support.google.com/youtube/answer/2734796?hl=en
(见Transcribe and set timings那一项)

要是找不到既有的自动化工具,考虑到音频量不大,可能暂时就自己用字幕打轴工具手动对齐,弄的时候注意下精度什么的。以后要是有比较大的需求或许会去学习下forced alignment等相关技术。

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/179617

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX