离线语音识别方案

2021-01-24 16:40:54 +08:00
 vevlins

请教下各位,实现离线语音识别能力(较长时间的语音转写,仅包含中文即可),有什么简单的方案吗?

看了下 deepspeech 的一些实现,预训练的包效果都不怎么样,自己训练的难度不小。

或者有什么方案可以利用系统的能力,比如 windows 有一个 sapi,可以实现长时间的语音转文本吗?(10 分钟以上)

3876 次点击
所在节点    程序员
12 条回复
a570295535
2021-01-24 17:51:36 +08:00
分段吧
qq316107934
2021-01-24 18:07:29 +08:00
同想知道比较好的离线中文语音识别方案,最好是流式的
zjsxwc
2021-01-24 18:15:20 +08:00
科大讯飞的翻译机 不都可以在没有网络的地方翻译使用吗
processzzp
2021-01-24 18:19:37 +08:00
去讨论手机应用窃听的帖子下面看看吧,那里个个都拍胸脯说语音识别完全不是问题,还能不依赖麦克风工作。

手动 [Doge]
mmlmml1
2021-01-24 18:37:45 +08:00
如果是 Apple 平台的话,macOS 和 iOS 自带有 Speech 库,有离线识别的功能,不过效果一般,还要用户权限授权
12tall
2021-01-25 08:41:55 +08:00
https://alphacephei.com/vosk/ 之前有用过,但是效果并不是特别理想
jiabing520a
2021-01-25 09:47:31 +08:00
系统和浏览器一般都自带接口,但是似乎有 BUG,概率出现进度条在走,实际上没声音播放 api.uuin.top/tts/
Flymachine
2021-01-25 10:17:17 +08:00
科大讯飞有这技术,中文识别率还可以吧。我买过用它技术的录音笔
Flymachine
2021-01-25 10:18:25 +08:00
科大讯飞的技术支持中英文语音实时转文字,纯英文录音非实时转文字。
lemon94
2021-01-25 14:21:26 +08:00
前科大讯飞员工,恰好是翻译机项目组的。看上边有人提到就出来吐槽下,离线翻译的识别率真的惨不忍睹。。。
orannge
2021-01-25 19:32:11 +08:00
讯飞的可以试试,当然和在线是不能比的。

@processzzp 不同场景准确率要求不一样吧,日常使用要求基本准确,用作广告甚至可以只识别关键字
exploreexe
2023-02-05 22:17:05 +08:00
科大讯飞的翻译机就是个纯垃圾,还有脸卖 2000 多。。

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/747897

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX