V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
爱意满满的作品展示区。
saaak
V2EX  ›  分享创造

vibe 了一个用于 nas 上自动语音识别生成字幕并翻译的工具: SubtitlePipeline

  •  
  •   saaak ·
    saaak · 3 天前 · 589 次点击

    起因是 nas 里的日本小姐姐视频大多没有字幕,看的时候总感觉少了点什么。市面上的字幕工具基本都是桌面端 GUI ,一个个手动处理太麻烦。我需要的是——丢进去就自动出字幕,不用管它。因此 vibe 了这个项目,全自动字幕生成流水线( https://github.com/saaak/SubtitlePipeline

    SubtitlePipeline 是一个 Docker 部署的服务,指定媒体目录后全自动完成:扫描视频 → 提取音频 → WhisperX 语音识别 → LLM 翻译 → 生成 .srt 字幕。 自动为媒体库中的每个视频生成中文字幕,输出到视频同目录,同时支持配置生成的字幕文件名格式(影片.zh.srt 、影片.forced.zh.srt 等),这样就可以自动挂载到 Jellyfin / Emby / Plex 等流媒体服务器。

    实测过程中使用了一个近 3 小时的视频,用的 whisper 的 small 模型。在 i5-12490f 下语音转文字跑了 20 分钟左右,剩下的翻译等步骤很快,总共用时 20 分钟多点。small 模型效果就那样吧,识别效果一般,不过基本上能看懂意思了。 有些大模型 API 会拦截 NSFW 内容的翻译,可以通过配置自定义 system prompt 解决。

    测试视频

    最终的效果如下图所示,基本能看懂在讲啥

    最终效果

    7 条回复    2026-04-10 10:52:58 +08:00
    renmu
        1
    renmu  
       3 天前 via Android
    有 jav 特化的 whisper 模型,而且你这字幕排版也完全不行啊
    Aprdec
        2
    Aprdec  
       3 天前
    @renmu 哈哈哈,有点 6 搜了一下
    saaak
        3
    saaak  
    OP
       3 天前
    @renmu 感谢哈我去了解一下。排版是因为 small 模型对齐分割出的结果就是一坨,然后直接导到了 jellyfin 就这样了
    calmbinweijin
        4
    calmbinweijin  
       3 天前
    瑟瑟才是生产力啊
    neilxu
        5
    neilxu  
       3 天前
    star 了,周末试试
    HeyWeGo
        6
    HeyWeGo  
       3 天前
    这时候不得不服大师的经验,“想象力比常识更重要,因为常识是有限的,而想象力概括着世界上的一切”
    vicazuruhu97
        7
    vicazuruhu97  
       3 天前
    @renmu 是吧,当你做出了什么,一定会发现早就有人做出来了,还远比你的好
    关于   ·   帮助文档   ·   自助推广系统   ·   博客   ·   API   ·   FAQ   ·   Solana   ·   5578 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 23ms · UTC 08:41 · PVG 16:41 · LAX 01:41 · JFK 04:41
    ♥ Do have faith in what you're doing.