提取音频或者视频为文字信息有什么好办法吗?

246 天前
 clockwork1122

平时比较喜欢听一些播客或者是看些知识型的视频想记录文字,是否能有工具满足两个场景。

  1. 边听(看)边输出文字
  2. 输入音频或者视频链接,自动输出文本。 (现在同传或者是 AI 字幕都很成熟,有现成工具还是需要调大厂的 API 自己实现呢
1247 次点击
所在节点    问与答
9 条回复
qquantt
246 天前
提取音频或视频为文字信息,通常被称为“语音识别”或“自动语音转录”。以下是一些常用的方法和工具:

专业转录服务:有些公司提供专业的转录服务,如 Rev 和 TranscribeMe 。这些服务通常提供高精度的转录,但可能需要支付费用。

自动转录软件:

1. Google Cloud Speech-to-Text:这是一个基于云的 API ,可以将音频和视频转换为文字。
2. IBM Watson Speech to Text:IBM 的语音识别服务也提供了类似的功能。
3. Amazon Transcribe:Amazon 的自动语音转录服务。
桌面软件:如 Dragon NaturallySpeaking ,它是一个语音识别软件,可以将说话的内容转化为文字。

免费工具:

1. YouTube:你可以上传视频到 YouTube ,然后开启自动生成字幕功能。之后,你可以下载这些字幕作为文本文件。
2. Audacity:这是一个免费的音频编辑软件,它有一些插件可以进行简单的语音识别。
3. 手机应用:有些手机应用如 Otter.ai ,可以实时转录会议或对话。

4. 专用硬件:如专业的数字录音笔,有些模型带有自动转录功能。科大讯飞的耳机可以。

5. 开源工具:如 CMU Sphinx ,这是一个开源的语音识别系统,适合于那些希望自定义或集成到自己的应用中的开发者。

选择哪种方法取决于你的需求、预算和所需的准确性。对于正式的商业或法律文件,可能需要专业的转录服务以确保准确性。而对于日常使用或草稿,自动转录工具或应用可能已经足够了。
kdwnil
246 天前
看起来 op 的需求是语音转文字?有个东西叫 openai/whisper ,我记得前段时间有 v2 老哥分享过基于这玩意做的工具
Andim
246 天前
@kdwnil 中文错误率太高 正确率可能也就 80%多
fyq
246 天前
和你的诉求稍微有点点出入:
https://github.com/raryelcostasouza/pyTranscriber
可以将你要的音视频转为 mp3 后导入得到文本
ZeroW
246 天前
通义听悟挺好用的
jancing
246 天前
1. Microsoft 365 Word
2. Adobe Speech to Text in Premiere Pro
rpish
246 天前
飞书妙记
unii23i
246 天前
clockwork1122
244 天前
@jancing 感谢我试试

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/972151

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX