做了一个音/视频转文本的工具

做了一个音/视频转文本的工具，叫 video to text

功能非常简单直接，把音频或者视频文件拖进去，就能转化成文本，支持 4 种导出格式：srt, vtt, txt, or csv。srt 和 vtt 是字幕文件的格式。

导出的字段包括：这句话的开始时间、结束时间、发言人标签（不同的人会标注 speaker A 、speaker B ）和这句话的文本。

支持 99 种语言，也支持多语言音/视频的识别。

比较适合用来做会议记录、课堂录音或者是采访录音的转写。

使用前需要登录，新用户有 30 分钟免费使用时长。

大概说一下这个工具的工作流吧。

如果你上传的是视频文件，会先在本地转化成音频，然后上传到后端存储（如果是音频文件就直接上传）

这个后端存储我用的是 Cloudflare r2, 设置了一个 72 小时后自动删除的规则。

上传完以后，会调用 Assembly 的 api 进行转写，转写后的数据保存在 Assembly 那边，Assembly 也是默认保存 72 小时。

是的，我没有把数据保存到数据库，所有的设计都是为了不给自己添麻烦。

前端收到的结果是一个 Assembly api 返回的 id ，后续导出也是通过 id 请求 Assembly 的 api 返回数据，在我的后端拼接处理一下，返回给用户。

用户本地也会保留最近 72 小时的上传记录。如果之前导出的文件丢了，还能继续导出。

使用的开发框架是 Sveltekit 。

😊