起因是 nas 里的日本小姐姐视频大多没有字幕,看的时候总感觉少了点什么。市面上的字幕工具基本都是桌面端 GUI ,一个个手动处理太麻烦。我需要的是——丢进去就自动出字幕,不用管它。因此 vibe 了这个项目,全自动字幕生成流水线( https://github.com/saaak/SubtitlePipeline )
SubtitlePipeline 是一个 Docker 部署的服务,指定媒体目录后全自动完成:扫描视频 → 提取音频 → WhisperX 语音识别 → LLM 翻译 → 生成 .srt 字幕。 自动为媒体库中的每个视频生成中文字幕,输出到视频同目录,同时支持配置生成的字幕文件名格式(影片.zh.srt 、影片.forced.zh.srt 等),这样就可以自动挂载到 Jellyfin / Emby / Plex 等流媒体服务器。
实测过程中使用了一个近 3 小时的视频,用的 whisper 的 small 模型。在 i5-12490f 下语音转文字跑了 20 分钟左右,剩下的翻译等步骤很快,总共用时 20 分钟多点。small 模型效果就那样吧,识别效果一般,不过基本上能看懂意思了。 有些大模型 API 会拦截 NSFW 内容的翻译,可以通过配置自定义 system prompt 解决。
最终的效果如下图所示,基本能看懂在讲啥
这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。
V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。
V2EX is a community of developers, designers and creative people.