vibe 了一个用于 nas 上自动语音识别生成字幕并翻译的工具： SubtitlePipeline

V2EX = way to explore

V2EX 是一个关于分享和探索的地方

现在注册

已注册用户请登录

爱意满满的作品展示区。

起因是 nas 里的日本小姐姐视频大多没有字幕，看的时候总感觉少了点什么。市面上的字幕工具基本都是桌面端 GUI ，一个个手动处理太麻烦。我需要的是——丢进去就自动出字幕，不用管它。因此 vibe 了这个项目，全自动字幕生成流水线（ https://github.com/saaak/SubtitlePipeline ）

SubtitlePipeline 是一个 Docker 部署的服务，指定媒体目录后全自动完成：扫描视频 → 提取音频 → WhisperX 语音识别 → LLM 翻译 → 生成 .srt 字幕。自动为媒体库中的每个视频生成中文字幕，输出到视频同目录，同时支持配置生成的字幕文件名格式（影片.zh.srt 、影片.forced.zh.srt 等），这样就可以自动挂载到 Jellyfin / Emby / Plex 等流媒体服务器。

实测过程中使用了一个近 3 小时的视频，用的 whisper 的 small 模型。在 i5-12490f 下语音转文字跑了 20 分钟左右，剩下的翻译等步骤很快，总共用时 20 分钟多点。small 模型效果就那样吧，识别效果一般，不过基本上能看懂意思了。有些大模型 API 会拦截 NSFW 内容的翻译，可以通过配置自定义 system prompt 解决。

测试视频