V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
爱意满满的作品展示区。
iorilu
V2EX  ›  分享创造

最强 AI 字幕软件来了, V2sub - AI 字幕机(原创软件)

  •  
  •   iorilu · 355 天前 · 15825 次点击
    这是一个创建于 355 天前的主题,其中的信息可能已经有所发展或是发生改变。

    V2sub 是基于最新 ASR (自动语音识别)技术开发的一款 AI 智能字幕生成软件, 可将任意视频 转换为各种语言的字幕, 软件操作简单, 任何人可以轻松一键生成。 从此看剧不用愁 支持十几种语言, 支持 GPU 加速, 基于 OpenAI 技术构建

    V2sub

    V2sub - AI 字幕机

    软件主要功能:

    1. 一键生成字幕
    2. 支持多语言
    3. 支持各种视频格式
    4. 支持 CPU ,GPU 进行 AI 计算
    5. 使用 GPU 可获得 CPU 的 8-10 倍性能
    6. 支持批处理, 可将一个目录所有视频一键生成字幕

    B 站视频

    B 站 V2sub 视频

    联系:

    邮箱: [email protected] 微信:aizimuji QQ 群:157222123

    软件下载

    第 1 条附言  ·  355 天前
    阿里云盘好像不支持大压缩包分享

    请先到其他两个盘下载
    87 条回复    2023-08-29 13:22:22 +08:00
    Microi
        1
    Microi  
       355 天前   ❤️ 1
    优秀,支持。
    dawe
        2
    dawe  
       355 天前 via iPhone   ❤️ 11
    这个是只是把 whisper 用 gui 包装了一下还是有什么改进?
    closedevice
        3
    closedevice  
       355 天前
    自己训练的模型?
    sytao
        4
    sytao  
       355 天前 via iPhone
    下载试试!
    renmu
        5
    renmu  
       355 天前 via Android
    盲猜 whisper 包装了一下,然后用 chatgpt 进行翻译😂
    imicksoft
        6
    imicksoft  
       355 天前
    前几天用 subtitle-edit 生成字幕,6 分钟中文影片生成字幕用了半天时间
    而同事用剪影就很快,可惜我的电脑 aero 效果不能开了,无法用剪影
    iorilu
        7
    iorilu  
    OP
       355 天前
    @imicksoft 这个软件大概只需要 30 秒
    iorilu
        8
    iorilu  
    OP
       355 天前
    @dawe 模型是用 whisper , 后面可能会有优化, 另外加上翻译功能

    whisper 本身不支持翻译
    Wenbobobo
        9
    Wenbobobo  
       355 天前 via Android   ❤️ 1
    不是,whipser.cpp 有 GPU 版本的 gui 吖
    Const-me/Whisper: High-performance GPGPU inference of OpenAI's Whisper…https://github.com/Const-me/Whisper
    iorilu
        10
    iorilu  
    OP
       355 天前
    @Wenbobobo 我这不是光套个壳子, 关键是能翻译成多种语言字幕

    如果只是套个壳子我也懒得折腾了
    CRipple
        11
    CRipple  
       355 天前
    支持,下载试一试
    xzheng
        12
    xzheng  
       355 天前
    不支持 OSX ?
    iorilu
        13
    iorilu  
    OP
       355 天前
    @xzheng 暂不支持, 毕竟 macos 也不支持 GPU 加速, 只能弄个 CPU 版

    暂时没时间, 也没机器
    makelove
        14
    makelove  
       355 天前
    之前看过一个 whisper 评测 https://blog.lopp.net/openai-whisper-transcription-testing/
    cpu 的性能几乎不能忍,gpu 的性能几十倍于 cpu
    xzheng
        15
    xzheng  
       355 天前
    CPU 版能打包个 OSX 版本吗? V2EX 社区 OSX 用户可能比较主流。
    vokins
        16
    vokins  
       355 天前 via iPhone
    很高级收藏了
    iorilu
        17
    iorilu  
    OP
       355 天前
    @xzheng 后续可能会安排

    不过我得先买机器, 我有个 macbook air 2017 , 但这个我估计现在做开发也不够了把
    shiqueb
        18
    shiqueb  
       355 天前 via Android   ❤️ 7
    https://github.com/abdeladim-s/subsai
    同样的功能,GPL 开源
    iorilu
        19
    iorilu  
    OP
       355 天前   ❤️ 2
    @shiqueb 这种东西开源不少得, 但得懂点技术才能玩

    我是想搞一个任何人都能玩得东西, 毕竟用户体验很重要
    loli
        20
    loli  
       355 天前
    用过 whisper,效果不错
    但有个很严重的问题,时长较久的视频会产生大量重复的内容
    甚至会从某个时间段完全重复到结尾
    以下 issues 也提到了
    https://github.com/Const-me/Whisper/issues/26

    想了一些方法但都是用户侧的,最后还是决定等待更新
    不知道 up 作为开发有什么解决方案没
    yunyuyuan
        21
    yunyuyuan  
       355 天前
    闭源产品?那和字节的剪映相比有什么优势吗,剪映还不需要自己的 GPU
    javaluo
        22
    javaluo  
       355 天前
    可以设置为中英双语么
    中英两行放在一起
    guoyan
        23
    guoyan  
       355 天前
    这么厉害。太棒了。
    Wpaengd
        24
    Wpaengd  
       355 天前
    优秀
    imicksoft
        25
    imicksoft  
       355 天前
    @iorilu
    界面用什么开发的?这个需要 win 几?需要哪些支持库?
    iorilu
        26
    iorilu  
    OP
       355 天前 via Android
    @yunyuyuan 一来本地执行,不是什么视频都适合上传

    二来剪影只支持中英文把, 这个支持十几种语言

    三剪影只是转录字幕,并不支持翻译
    iorilu
        27
    iorilu  
    OP
       355 天前 via Android
    @loli 是的,目前还有重复, 或者模型自己幻想出来都有,就是其实视频是杂音非人声,但模型有产出

    我看了一些资料,目前据我所知没有很完善的方案

    我最近想先发布一个初始版本

    后面会关注这些问题,有合适方案会更新的
    iorilu
        28
    iorilu  
    OP
       355 天前 via Android
    @imicksoft 界面用了 pyqt6

    随便搞了个,qt 我也是现学的
    iorilu
        29
    iorilu  
    OP
       355 天前 via Android
    @javaluo 目前不支持, 不过已经产出两个字幕,你在播放器加下就行

    或者找个视频软件把两个字幕嵌入就行

    可以看我 b 站视频演示
    Death
        30
    Death  
       355 天前   ❤️ 1
    KasonKwok
        31
    KasonKwok  
       355 天前   ❤️ 1
    可以尝试下 [buzz]( https://github.com/chidiwilliams/buzz) 跨平台,支持在线 api 和离线模型转换,可以导出字幕,如果是影片的话可以用 ffmpeg 先取音频
    iorilu
        32
    iorilu  
    OP
       355 天前
    @KasonKwok 这些东西可能对老外有点用, 因为 whisper 只能翻译为英语
    luckyswag
        33
    luckyswag  
       355 天前
    感觉最近搭配 whisper + 翻译会有不少产品出现
    JCZ2MkKb5S8ZX9pq
        34
    JCZ2MkKb5S8ZX9pq  
       355 天前
    @loli #20
    同遇到过这个问题,大段重复,发生原因不详。
    XiaoBaiYa
        35
    XiaoBaiYa  
       355 天前
    大段重复解决了吗,这个解决了基本就可以商用了
    KasonKwok
        36
    KasonKwok  
       355 天前
    @iorilu 并不是,可以选择自动识别语言,也可以手动选择语言
    iorilu
        37
    iorilu  
    OP
       355 天前
    @KasonKwok whisper 本身只是转录字幕, 视频是什么语言, 字幕就是什么语言

    并不能把日语视频, 生成中文字幕
    hanguofu
        38
    hanguofu  
       355 天前
    有没有人试过用哪个 离线的 ASR (自动语音识别)技术对普通话 有比较高的识别率 ?
    KousukeSakurako
        39
    KousukeSakurako  
       355 天前
    居然不支持 mp3
    iorilu
        40
    iorilu  
    OP
       354 天前   ❤️ 1
    @hanguofu 这个就可以啊, 普通话识别率我认为还是很高的, 我发的 B 站视频就是这个软件识别得
    ViolaH
        41
    ViolaH  
       354 天前 via iPhone
    个人目前做字幕(日-英&中)的方案是在 colab 上面跑 whisper ,然后将生成的日语字幕文件在本地进行内容和时间轴校对( whisper 的时间轴有时候会很错乱,以及上面提到的重复问题,但是内容识别准确度还是极其高的,基本不用改),校对后再用 ChatGPT 翻译
    iorilu
        42
    iorilu  
    OP
       354 天前
    @ViolaH 大佬能说说看怎么进行校对, 有软件或库操作吗
    ViolaH
        43
    ViolaH  
       354 天前 via iPhone
    @iorilu 校对没办法啊,纯靠人工,whisper 的时间轴真不太靠谱
    iorilu
        44
    iorilu  
    OP
       354 天前
    chatgpt 翻译字幕有个对齐得问题

    我前段时间本来想把 chatgpt 翻译器加上, 后来发现没解决这个对齐问题

    比如说我发十句话, 希望 chatgpt 返回十句话, 不要自行进行合并处理

    找了下没看到好的方案, 后来暂时搁置了

    除非一句一句发, 但效率太低
    iorilu
        45
    iorilu  
    OP
       354 天前
    @ViolaH 你 chatgpt 解决对齐问题了吗, 可能一次发很多句, 然后确保返回同样行吗
    lemonda
        46
    lemonda  
       354 天前
    可以转音频么?
    因为我做视频时直接录音总是脑子有点转不过来,后期配音从容些。
    能根据字幕生成 ffmpeg 裁剪命令么?
    能的话可以一定程度替代 descript 了
    mayq0422
        47
    mayq0422  
       354 天前 via Android
    @iorilu 可以用括号呀
    比如 admin:翻译括号{{}}中内容到中文,不要跳过任何内容。无法翻译的输出空括号{{}}。
    user: {{hello}}{{world}}
    EndDream
        48
    EndDream  
       354 天前
    我试了一下,和 buzz 一样,识别出来的的时间轴有问题,有时候会强行连在一起,明明就一句话,中间还有一段时间不说话,但是时间轴却一直延伸到下一句话,我问了 buzz 那边的作者是说是模型问题
    lylmydear
        49
    lylmydear  
       354 天前
    试了一下,后期可以考虑加入简英 繁英和 ass 效果这些, NAS 党是很需要的,很多片源都没有对应的字幕.
    NeedforV2
        50
    NeedforV2  
       354 天前
    先试试效果
    witcherhope
        51
    witcherhope  
       354 天前
    你在 i2ex 论坛不支持 macOS ,推广有点困难哈哈
    muchenlou
        52
    muchenlou  
       354 天前
    很酷
    iorilu
        53
    iorilu  
    OP
       354 天前
    @witcherhope 暂没, 会尽快搞一个看看
    有人试过如果用老 macbook ,intel 芯片的, 编译打包软件, 能在新 macbook m1 ,m2 用吗

    我有个老 macbook ,intel 芯片的
    snowish
        54
    snowish  
       354 天前
    不错不错,当年我学习英语的时候很想要一个这样的软件。后来我的英语听力上去了,就直接看美剧了,美其名曰啃生肉。
    iorilu
        55
    iorilu  
    OP
       354 天前
    @mayq0422 不错啊, 我回头试试看
    zcf0508
        56
    zcf0508  
       354 天前 via Android
    iorilu
        57
    iorilu  
    OP
       354 天前
    @lemonda 音频后面会加上

    你说的根据字幕生成 ffmpeg 裁剪命令我不是很清楚什么意思

    应该是比较专业制作视频的人才需要把

    我目标还是做一个简单好用的字幕生成软件, 一键完成就行
    ColoThor
        58
    ColoThor  
       354 天前
    免费版只支持前 10 分钟。。
    Andim
        59
    Andim  
       354 天前 via iPhone
    @EndDream 这个好像就是在 Buzz 的基础上增加了翻译功能吧 字幕翻译也有开源的
    shaojz2005
        60
    shaojz2005  
       354 天前
    如何收费呢
    iorilu
        61
    iorilu  
    OP
       354 天前
    @shaojz2005 网盘里的 v2sub.pdf 有详细说明, 有兴趣可以看看

    5.8 元半个月
    9.8 一个月, 其他可以看 v2sub.pdf
    sunyang
        62
    sunyang  
       354 天前
    @iorilu 收费的话建议改个名字,顶着 V2 的名字可能有商业上的风险。
    ungrown
        63
    ungrown  
       354 天前
    @loli #20 听起来像是上下文缓冲区溢出了?
    lamquan
        64
    lamquan  
       353 天前
    已经文稿了,能实现自动打轴功能吗
    fenglingyu
        65
    fenglingyu  
       353 天前
    @mayq0422 这个也不行,试了下,30 行字幕,合并成 25 行,有时候加的限制多了,chatgpt 为了保证行数,直接变成复读机,重复输出几行。
    zky001
        66
    zky001  
       353 天前
    我自己也做了一个自用 代码基本上是 gpt 生成的,我调试了一下 主要用在看岛国的爱情片上 效果挺不错的 也是 whisper+gpt api
    iorilu
        67
    iorilu  
    OP
       353 天前
    @zky001 gpt 翻译对齐问题怎么解决呢, 还是一行一行发的
    elonmask
        68
    elonmask  
       352 天前
    @iorilu mac 有 gpu 加速的,把模型转成 coreML 就行了
    iorilu
        69
    iorilu  
    OP
       352 天前
    @elonmask 还没了解 , 不过看了可以在 mac 上用 whisper.cpp , 应该性能提升了一些, 可以用了

    我后面会考虑出个用 whisper.cpp 的 mac 版本
    iorilu
        70
    iorilu  
    OP
       350 天前
    V2sub - AI 字幕机 新版本 0.4.0 发布
    文件已上传至网盘

    该版本新增若干功能, 具体如下

    - 增加音频处理 , 可处理 mp3 ,wav 等众多格式 (专业版独享)
    - 增加单独字幕翻译功能(专业版独享)
    - 增加双语字幕生成功能
    - 增加双语字幕设置, 可控制源语言在上或在下
    - 增加智能跳过已生成字幕功能, 避免重复劳动

    网盘也有升级包下载, 请各位根据自己版本进行升级, 也有完整完整包
    fengtalk
        71
    fengtalk  
       346 天前
    看了 B 站演示视频,效果不错。
    iorilu
        72
    iorilu  
    OP
       340 天前
    V2sub - AI 字幕机 0.5.0 发布文档 发布时间:
    ### 发布时间:2023-04-21

    ### 该版本新增若干功能, 具体如下

    - 主窗口支持文件拖拽
    - 翻译增加语言设置, 设定中文输出为简体中文或繁体中文
    - 翻译器换为 google 翻译, 翻译更稳定, 速度大幅提高
    - 语言支持增加印地语, 乌克兰语
    iorilu
        73
    iorilu  
    OP
       320 天前
    V2sub - AI 字幕机 0.6.0 发布文档
    发布时间:2023-05-13
    AI 字幕机官网已上线
    AI 字幕机产品网站 ( https://www.aizimuji.com)
    AI 字幕机注册码销售网站 ( https://buy.aizimuji.com)
    该版本有重大更新, 具体如下
    模型计算框架更换, 实现更快转录速度, 更少显存占用
    CPU 版, GPU 版速度提升 30-50%
    GPU 版显存占用大幅降低, 中模型仅需不到 4G 显存, 大模型仅需不到 6G 显存
    转录准确性也有相应提高, 但还有优化空间
    修复部分 Bug
    因该版本变化巨大, 和老版本不兼容, 故不提供升级包, 请大家下载完整包使
    用, 注册码有效期内可在新版本重新注册, 不影响
    重大提示
    该版本模型也完全更新, 和旧模型不兼容, 请重新下载新模型使用, 安装方法也有部分变化

    ## 软件下载
    - 百度盘 ( https://pan.baidu.com/s/1Btn3shMcs_5Z-zYh7P4c9w?pwd=3ev6
    提取码:3ev6 )
    - 123 网盘 ( https://www.123pan.com/s/toZZVv-b7TGA)
    iorilu
        74
    iorilu  
    OP
       317 天前
    macOS 版开发完成, 已经上传了

    - AI 字幕机产品网站 ([https://www.aizimuji.com]( https://www.aizimuji.com))
    - AI 字幕机注册码销售网站 ([https://buy.aizimuji.com]( https://buy.aizimuji.com))

    软件下载
    百度盘 ( https://pan.baidu.com/s/1Btn3shMcs_5Z-zYh7P4c9w?pwd=3ev6 提取码:3ev6 )
    123 网盘 ( https://www.123pan.com/s/toZZVv-b7TGA
    wujunze
        75
    wujunze  
       305 天前
    @iorilu 你好 Mac 版本打不开, 你试一下看看, 是不是因为 APP 签名的问题
    iorilu
        76
    iorilu  
    OP
       305 天前 via Android
    XiaoBaiYa
        77
    XiaoBaiYa  
       296 天前
    LZ 重复的问题解决了吗?
    iorilu
        78
    iorilu  
    OP
       296 天前
    V2sub - AI 字幕机 0.7.0 发布文档
    ### 发布时间:2023-06-05

    ### 该版本有重大更新, 具体如下

    功能更新:
    - 增加 ChatGPT 翻译器, 以及翻译配置菜单功能 (仅供专业版)
    - 增加 cpu 全速模式开关, 使用 cpu 计算时可以提高 30%-50%性能, 主要针对没有 GPU 的用户(仅供专业版)
    - 翻译增加中途保存功能, 便于发生错误后继续上次进度
    - 优化模型转录字幕方式, 很好提升了生成字幕的时间轴准确性, 可用程度大幅提高, 已基本接近人工做的字幕
    - 使用新的打包方式, 体积大幅减小
    - 合并 CPU 和 GPU 版, 以后 Windows 只发布一个版本, 方便用户使用, 软件自动判断系统是否支持 GPU , 会优先使用 GPU , 没有 GPU 自动使用 CPU
    - 增加注册码过期后, 可以继续使用免费版功能, 避免重新安装

    Bug 修复:
    - 修复模型不支持中文路径 bug , 现在软件可以随便放置在中文或英文目录
    iorilu
        79
    iorilu  
    OP
       296 天前
    @XiaoBaiYa 你说的重复问题有部分改善把, 可能没有 100%解决
    XiaoBaiYa
        80
    XiaoBaiYa  
       295 天前 via iPhone
    @iorilu 嗯,已经买了一个月试试
    wujunze
        81
    wujunze  
       290 天前
    @iorilu 你好 安装成功了, 谢谢, 可以加一个批量选中文件夹的功能吗, 一个文件一个文件拖进去 太麻烦了
    iorilu
        82
    iorilu  
    OP
       290 天前 via Android
    @wujunze 专业版支持选择文件夹批量处理功能
    jsshwqz
        83
    jsshwqz  
       269 天前
    支持直接转中文发音不?网上有款,但收费太高,
    iorilu
        84
    iorilu  
    OP
       269 天前
    @jsshwqz 语音合成功能开发中, 后面会上线
    Rrrrrr
        85
    Rrrrrr  
       257 天前
    我觉得卖给视频播放软件会好很多,这样使用太麻烦
    qqjt
        86
    qqjt  
       256 天前
    厉害,实践出真钱
    mstephenses9531
        87
    mstephenses9531  
       213 天前
    没看懂
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   我们的愿景   ·   实用小工具   ·   2873 人在线   最高记录 6543   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 34ms · UTC 13:02 · PVG 21:02 · LAX 06:02 · JFK 09:02
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.