语音转文本的开源模型,各位有接触过吗?

103 天前
 Liu6

想找一个开源的模型,大厂的模型有推荐的吗?
目前有了解 OpenAI Whisper
想满足:
1.能支持 GPU 加速
2.准确率高(降噪啥的)支持中英混合,主要是中国口音的英语(没有歧视的意思, 纯业务需求)
3. 速度尽可能的快
场景是离线的。

1807 次点击
所在节点    程序员
14 条回复
liu731
103 天前
python35
103 天前
就是做这个相关的,比较流行的是 kaldi2 、funasr 、wenet 、sensevoice ,都提供了很多预训练的模型,在 cuda 上都能跑,
其中 sensevoice 的 readme 写了 Multilingual Speech Recognition: Trained with over 400,000 hours of data, supporting more than 50 languages, the recognition performance surpasses that of the Whisper model.
他们的效果超过 Whisper
dodoa
103 天前
@python35 #2 感谢分享, 我们也有这个需求,最近也在研究相关的技术。
Liu6
103 天前
感谢各位分享!
Liu6
103 天前
@python35 #2 老哥, 您感觉这几个哪个符合一点, 有没有心中排行。
neoblackcap
103 天前
现有的 LLM 的语音识别效果应该都挺好的,但是实际操作可能得是信号处理方面下功夫。过滤背景音,音乐啥的。然后再是语音识别。
yuedashi
102 天前
@liu731 你这是 TTS ,不符合楼主的需求哦
python35
102 天前
@Liu6 #5 个人更喜欢这个 sensevoice ,kadi2 ,背靠大公司,相对于背靠开源社区的迭代速度和训练集更有优势,kaldi2 的话生态更好从训练到部署一条龙
Liu6
102 天前
@python35 #8 好的, 感谢, 早上刚好在看 sensevoice , 正在研究参数的含义。
newaccount
102 天前
用过 whisper
把吉他课转录成文本
不知道他用了哪儿的训练语料
对话过程中会有音乐,导致它能把对话成识别成周华健
我特么要是能找周华健教吉他我特么都该表演个倒立洗头
newaccount
102 天前
@newaccount #10 哦,还有
这识别出来的文本没有标点符号
最后又丢给 qwen 总结润色,勉强能看
Liu6
101 天前
@python35 #2
@newaccount #11 老哥们,有知道哪些能支持 分角色和显示时间吗?
newaccount
101 天前
@Liu6 #12 时间没有显示,角色自动识别的,当时随便用用主打一个省心,懒得手动整理
Liu6
101 天前
@newaccount #13 paraformer-zh 这个模型可以支持 角色 和时间, 就是速度我测下来, 比 sensevoice 慢了 3 倍左右, 准确度目前还没对比

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/1145571

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX