[分享] 一款高效的音频/视频转文字工具——语音识别生成字幕

338 天前
 dmitsc
以下内容由 chatgpt 撰写

大家好,我在这里分享一个我最近发现( gang bian de )的非常实用的工具——音频 /视频转文字工具。

这个工具可以帮助你把音频或者视频文件转化为文本,是非常好用的语音识别工具。最令人振奋的是,它不仅可以自动识别语言,而且可以生成多种格式的字幕文本。

主页: https://whisper.myfastools.com/

功能介绍:

音频转文字
识别语言
生成多种格式的字幕文本( TXT 、SRT 、JSON 、TSV 、VTT )
使用流程:

上传你的音频或者视频文件,系统会生成一个提取码显示在网页上,你可以用这个提取码来提取你的识别结果。识别结果包含了多种格式的字幕文本。

这是一段以英语演讲识别样例:

[点击这里下载 TXT 格式的结果文件]

https://whisper.myfastools.com/results/db5a4cf3943bb6df8fb6b0eeae5413ac.txt
https://whisper.myfastools.com/results/db5a4cf3943bb6df8fb6b0eeae5413ac.srt
https://whisper.myfastools.com/results/db5a4cf3943bb6df8fb6b0eeae5413ac.json
https://whisper.myfastools.com/results/db5a4cf3943bb6df8fb6b0eeae5413ac.tsv
https://whisper.myfastools.com/results/db5a4cf3943bb6df8fb6b0eeae5413ac.vtt
替换后缀即可下载( TXT 、SRT 、JSON 、TSV 、VTT )中的其他格式

希望这个工具对大家有所帮助。如果在使用过程中遇到问题,或者有什么改进的意见,都欢迎在下面留言。我会及时进行回复和改进。期待你们的反馈!

TODO:修改 UI ,添加登录功能,添加使用 GPU 的工作节点,显示实时进度,显示列队
1966 次点击
所在节点    分享创造
10 条回复
shuxge1223
338 天前
准确率咋样啊
dmitsc
338 天前
@shuxge1223
准确率很好了,你可以试一下

不过现在是没上好的硬件,可能会慢,大概几十秒到几分钟不等。

等我写完分布式处理之后,应该可以在三十秒内处理完大多数任务。
cxumol
338 天前
JerryLin
338 天前
看到 whisper 就想到 OpenAI 提供的 whisper 接口,楼主是使用 OpenAI 提供的吗?
AMZsowhat
338 天前
用几条中文人声语句测试了下,发声能准确识别,但是没有对上下文语意的分析,所以对于[在\再] [借\接]等词汇无法进行准确辨析
dmitsc
338 天前
@JerryLin 是的,使用了 OpenAI 的 Whisper 作为语音识别端。
dmitsc
338 天前
@AMZsowhat 目前由于硬件条件限制,采用了轻量模型。后续会采购硬件改用大模型,在那之后就会由上下文语意匹配的能力。
dmitsc
336 天前
@cxumol 预计本周末上线更高准确率的识别能力,到时候可以再试一下~
TernenceZhou
253 天前
你好,目前转文字好像没有弹出提取码
大佬 服务还能用吗
TernenceZhou
253 天前
提取码在左下角,然后提取码下载 auto-speed-70f82c3577358ece19aa70f735fa6bc7
https://pagead2.googlesyndication.com/pagead/js/adsbygoogle.js?client=ca-pub-9805069510030683
出现 block status
识别文件没有下载成功

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/944038

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX