请问大神: 有啥软件或算法能把一段谈话音频按照谈话的每个字切割成 N 段仅有一个字的短音频?

2020-11-12 14:53:16 +08:00
 sprinter

请问大神:

有一段英语谈话音频: Donald J. Trump is the 45th President of the United States.

请问有啥软件或算法能把上述一段谈话音频按照谈话的每个字切割成 N 段仅有一个字的短音频, 如切割成:

Donald

J.

Trump

is

the

45th

President

of

the

United

States.

切割成上述 11 段仅有一个字的短音频. 请问有啥软件或算法能自动实现这个功能?

烦请出出主意, 小女在此谢谢各位大神了!

1907 次点击
所在节点    程序员
15 条回复
knightdf
2020-11-12 14:57:15 +08:00
这直接按波峰波谷切就行了吧?
oatw
2020-11-12 15:02:58 +08:00
额,好像还是有难度的。英语为母语的人会有各种连读和略音,一句话里的发音都不是覆盖所有单词的,所以理论上来看是没法直接把每个单词从原音切出来的。

如果只是追求每个单词的发音,而不强求原声,觉得可以试试先调用语音识别的接口识别成文本,然后再 ai 读单词,哈哈哈~
laminux29
2020-11-12 15:06:59 +08:00
jmc891205
2020-11-12 15:10:29 +08:00
感觉各种连读吞音很难从音频上区分
你还是说说你为什么有这样需求吧
如果是先识别成文本,然后做分词,再按分词结果转换成每个词的语音,那我感觉还好做一些
takemeaway
2020-11-12 15:52:16 +08:00
语言识别-》分词-》获取时间轴-》切割音频
你是想做伪造音频的视频吧?
loliordie
2020-11-12 16:11:48 +08:00
aws 和 google 有语音识别的开源 API, 可以去了解一下.

我使用过 aws 家的, 识别率非常高.
shintendo
2020-11-12 16:26:02 +08:00
@takemeaway 我猜是做鬼畜素材
Elissa
2020-11-12 16:33:12 +08:00
猜测鬼畜音源+1
xuanbg
2020-11-12 16:43:23 +08:00
text to voice ?
QuinceyWu
2020-11-12 16:50:06 +08:00
自己剪把 2333
h4wklee
2020-11-12 16:52:09 +08:00






LinSP
2020-11-12 17:06:58 +08:00
用语音识别 API 获取词时间戳,然后根据时间戳自己去分下,一般的 API 都有这个功能
jones2000
2020-11-12 23:08:47 +08:00
语音转文本, 然后用语音一个一个单词念。
saulshao
2020-11-13 08:37:08 +08:00
首先是语音识别,然后 nlp
user8341
2021-01-05 02:47:06 +08:00
这个 idea 不错。做出来就是一个 youglish.com

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/724447

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX