请教下有什么好的 STT(语音转写)方案吗

2024-07-19 16:58:10 +08:00
 UWoodman

需求是这样,英文会议场景,想要在会议的时候使用转写,确保沟通的流畅性,不需要翻译,转录就可以了.

看了火山的 API,有道 APP,其实最理想的是 Chrome 的 Live Caption,感觉又小又轻便,但是没有找到好的产品.

试了下 mac 自带的 Live Caption,感觉也比较繁琐,每次需要去设置,用完还要去关闭设置,不知道各位大佬有没有更理想的解决方案

2739 次点击
所在节点    程序员
12 条回复
winterbells
2024-07-19 17:13:44 +08:00
Word -> 开始 -> 听写
ivyliner
2024-07-19 18:08:12 +08:00
可以试试 appstore 搜索: BeMyEars
https://www.engineerdraft.com/bemyears
alexnone
2024-07-19 21:43:41 +08:00
飞书妙记
zuiyue123
2024-07-19 22:36:57 +08:00
我用过开源的在 windows 上监听麦克风,准确率很高
starrn
2024-07-20 01:52:42 +08:00
@zuiyue123 whisper 吗
noahlias
2024-07-20 08:48:02 +08:00
英文的话 那 whisper 应该是效果比较好的了 找个快点的实现例如 fastwhisper 基本没啥问题

国内的基本都是对标中文的 阿里的 funasr 还有最近的 SenseVoice 都还行
kuse2001
2024-07-20 10:45:10 +08:00
飞书妙记,免费服务里最棒了吧
isSamle
2024-07-20 15:27:16 +08:00
zenghx
2024-07-20 16:38:58 +08:00
微软 azure cognitive api
devliu1
2024-07-20 17:17:03 +08:00
可以看下 sherpa 项目,可本地运行
zuiyue123
2024-07-21 19:33:34 +08:00
@starrn 基于 funasr 的
ivyliner
303 天前
我对这方面研究还挺多的.
在英文会议场景中, 需求主要有 2 类.
1. 实时识别, 需要能进行流式处理
2. 录音之后识别

场景 1: 目前好像就 BeMyEars 可以做到, 而且还有翻译功能
场景 2:
飞书妙记, 每个月 300 分钟免费额度, 满足需求 2, 需要自己提前录音.
whisper, 需要自己折腾一下命令行或者其它的工具, 缺点对中文不够友好, 需要 large 模型效果才比较可以
funasr 还是不错, 缺点是没有标点
SenseVoice 比如 funasr 好, 需要自己折腾一下命令行
vosk-api 中文不够好, 上一代的产品不推荐.
seamless_communication 大而全, 效果不好, 很重, 不推荐
azure cognitive api: 付费, 挺贵的. 要自己写程序调用 api
sherpa 需要自己折腾命令
夹带私货: 我的 App: YPlayer 搜索下载即可使用, 中文转录效果比 whisper 好, 英文的话, 就是用 whisper.

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/1058637

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX