做了一个音/视频转文本的工具,叫 video to text
功能非常简单直接,把音频或者视频文件拖进去,就能转化成文本,支持 4 种导出格式:srt, vtt, txt, or csv。srt 和 vtt 是字幕文件的格式。
导出的字段包括:这句话的开始时间、结束时间、发言人标签(不同的人会标注 speaker A 、speaker B )和这句话的文本。
支持 99 种语言,也支持多语言音/视频的识别。
比较适合用来做会议记录、课堂录音或者是采访录音的转写。
使用前需要登录,新用户有 30 分钟免费使用时长。
大概说一下这个工具的工作流吧。
如果你上传的是视频文件,会先在本地转化成音频,然后上传到后端存储(如果是音频文件就直接上传)
这个后端存储我用的是 Cloudflare r2, 设置了一个 72 小时后自动删除的规则。
上传完以后,会调用 Assembly 的 api 进行转写,转写后的数据保存在 Assembly 那边,Assembly 也是默认保存 72 小时。
是的,我没有把数据保存到数据库,所有的设计都是为了不给自己添麻烦。
前端收到的结果是一个 Assembly api 返回的 id ,后续导出也是通过 id 请求 Assembly 的 api 返回数据,在我的后端拼接处理一下,返回给用户。
用户本地也会保留最近 72 小时的上传记录。如果之前导出的文件丢了,还能继续导出。
使用的开发框架是 Sveltekit 。
😊
这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。
V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。
V2EX is a community of developers, designers and creative people.