V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
Marksdo
V2EX  ›  macOS

用 Whisper 的 AI 模型搞了个本机语音转文本及视频对话转录文本(字幕)的 app

  •  
  •   Marksdo · 291 天前 · 3233 次点击
    这是一个创建于 291 天前的主题,其中的信息可能已经有所发展或是发生改变。

    应用商店搜索 Whisper Mate 下载试试

    以后看没字幕的片子也可以自己本机翻译来看了😅

    具体支持以下功能

    • 转录音频或视频文件
    • 使用 deepl 免费 api 翻译字幕
    • 嵌入字幕编辑器,以修正转录错误
    • 导出为 SRT 、VTT 、CSV 、JSON 、SEGMENT 格式
    • 支持为每个字幕设置发言人
    • 大多数操作支持批量选择,例如批量运行任务、批量翻译行或批量设置发言人
    • 支持拖放文件开始转录
    • 支持在搜索转录时键入文本
    • 编辑器可预览音频或视频文件,并与播放范围同步
    • 支持多语言转换

    https://apps.apple.com/us/app/id6450404233

    不会直接贴软件截图,只能发地址了 https://i.imgur.com/pZlbn2G.png https://i.imgur.com/Q4fIDRp.png https://i.imgur.com/H3Y2uRG.png

    第 1 条附言  ·  255 天前
    国区下载或已购更新不了的可以用这个
    https://marksdo.gumroad.com/l/whispermate

    国区已遵循 ZC 下架了
    63 条回复    2023-12-24 22:44:20 +08:00
    Socrazy
        1
    Socrazy  
       291 天前
    支持日语吗
    zhufeilong
        2
    zhufeilong  
       291 天前
    不买 Lifetime Plans 有什么限制吗?
    Upperak1
        3
    Upperak1  
       291 天前
    看了下,不付费只能用简单模型
    Marksdo
        4
    Marksdo  
    OP
       291 天前
    @Socrazy 多语言的模型支持日语,不要选中 English 的模型,并在多语言模型选定自动或者指定日语
    Marksdo
        5
    Marksdo  
    OP
       291 天前
    @zhufeilong Free 的限止了不能使用大模型,大模型会比较准确,特别是英语 Only 的对英语是很准确的,只需矫正极少部分.如果是 M1 及 M2 的机器,使用 CoreML 的模块能极大的提升转录的速度
    Marksdo
        6
    Marksdo  
    OP
       291 天前
    @Upperak1 如果日常用的上,可以帮助提升效率的话,帮忙回下血...😂
    zhufeilong
        7
    zhufeilong  
       291 天前
    @Marksdo #5 感谢
    Marksdo
        8
    Marksdo  
    OP
       291 天前
    另外介绍下翻译那块,因为苹果商店不能明细写使用了破解的 Deepl 来实现免费翻译,其实可以 github 上找 deeplx 项目或者 zu1k/deepl 这两个项目,在 Whisper Mate 那里配制 local 类型的 deepl ,指向那两个逆向工程的 deeplx 项目,然后用但线程,间隔时间搞个 1-2 秒的,基本就免费随便翻译转录出来的文本了
    gpt5
        9
    gpt5  
       291 天前
    如果未来支持实时 speech to text 了,请艾特我一下。
    ql562482472
        10
    ql562482472  
       291 天前
    有 windows 版本嘛?然后有日语就更好了
    Chandleric
        11
    Chandleric  
       291 天前
    导出的 SRT 字幕文件好像格式不对?时间轴和文本的位置颠倒了,导致播放软件都无法识别。另外在哪里可以导出双语字幕呢?我好像没有找到这个功能。如果能能解决的话以后看剧就不用等字幕组了,感谢作者!
    Marksdo
        12
    Marksdo  
    OP
       290 天前
    @gpt5 这个可以说下具体场景吗?我看下具体怎么来弄实现
    Marksdo
        13
    Marksdo  
    OP
       290 天前
    @Chandleric 😅..我修复下
    Marksdo
        14
    Marksdo  
    OP
       290 天前
    @ql562482472 window 版本不会弄,都是弄 mac 上的 app ,还有其它几个小 App 有用的可以玩下哈
    gpt5
        15
    gpt5  
       290 天前
    @Marksdo 比如在线会议,如果对方安全设置比较严格,zoom/teams 都无法打开软件自带的字幕功能(对我个人来说,我需要实时字幕,不需要翻译)。bemyears (作者也在 v 站)有实时字幕功能,但感觉准确度不是很高。
    LAMBO
        16
    LAMBO  
       290 天前
    CoreML 模块开启后,字幕是简体和繁体混排的,请问是正常的吗
    LAMBO
        17
    LAMBO  
       290 天前
    测试了一下,并不是 CoreML 导致的。但很奇怪,我在抖音上下载了一个短视频,转换出来,字幕始终都是简繁字体混排的,但测试 YouTube 上的长视频就正常,字幕文字一直是简体。
    Marksdo
        18
    Marksdo  
    OP
       290 天前
    @gpt5 这个有计划做的,也是针对这种场景,但必须上 macOS13+,估计要一周
    Marksdo
        19
    Marksdo  
    OP
       290 天前
    @LAMBO 正常,开发时也遇到这个问题,应该上 whisper 模型本身问题,看后面如果模型有更新,跟随看下,如果只是 coreml 开启后才出问题的可能上转 coreml 模型时裁枝了,fp32->fp16 了
    LAMBO
        20
    LAMBO  
       290 天前
    @Marksdo 感谢,反复测试了下,应该和 coreml 无关。可能就是 whisper 模型本身问题导致的。
    Catch6
        21
    Catch6  
       290 天前
    这玩意我记得有协议限制,不能商用,你可小心点吧
    awfe
        22
    awfe  
       290 天前
    第一次下载模型到 66%的时候停住不动了,点击停止后再重新下载出现这个错误。切换到东京和新加坡的服务器也是一样。重新打开也是一样。
    saberw
        23
    saberw  
       290 天前
    @gpt5 Win11 有实时字幕,甚至能识别抽象的日式英语发音
    zhufeilong
        24
    zhufeilong  
       290 天前
    @Catch6 开源模型吧,而且国外已经非常多的竞品了,像 MacWhisper 、WhisperScript 用高级模型也都是要收费🤡
    Marksdo
        25
    Marksdo  
    OP
       290 天前
    @awfe 这个服务器在国外,如果不稳定行要 FQ 来下载.
    Marksdo
        26
    Marksdo  
    OP
       290 天前
    把国区价格改为了$4.99 ,谢谢大家的建议!
    gpt5
        27
    gpt5  
       290 天前
    @saberw 但是 win11 自带那个只有英语。。比如整理会议记录时,还需要中文。
    z1249502889
        28
    z1249502889  
       290 天前
    在预览字幕的时候,视频稍微长一点,会特别卡。上面也有人说过的,srt 导出格式是错误的,没法正常导入视频观看。
    saberw
        29
    saberw  
       287 天前
    @gpt5 开发版可以选择语言,中英日都有,我都用半年了
    gpt5
        30
    gpt5  
       286 天前
    @saberw 卧槽,试了一下,精度和速度都还不错。
    minamike
        31
    minamike  
       286 天前
    发现了一个骚操作
    先下载一个最小的模型和 CoreML 模型
    然后用网上下载的编译好的 large 模型和 CoreML 模型替换掉就好了🐶
    zhangwb2008
        32
    zhangwb2008  
       286 天前
    推荐个免费的竞品 Windows/Mac 通用 https://mxmefbp9p0g.feishu.cn/docx/ZI3ldweTXorTvMxYLbucT00Un5n
    Marksdo
        33
    Marksdo  
    OP
       280 天前
    @minamike 😅,被你发现你
    Marksdo
        34
    Marksdo  
    OP
       280 天前
    @z1249502889 SRT 格式错误的新版本已经修复,可以更新试试,字幕多卡的问题,已记录下,会修复的!感谢提供 BUG
    minamike
        35
    minamike  
       280 天前
    @Marksdo #33 主要是不知道为啥购买界面一片空白,难道是我的系统是 14.0 测试版的原因
    Marksdo
        36
    Marksdo  
    OP
       280 天前
    @minamike 还没在 14.0 上测试过,开发机只有一台也不敢贸然升级上去
    Marksdo
        37
    Marksdo  
    OP
       280 天前
    @minamike 还没在 14.0 上测试过,开发机只有一台也不敢贸然升级上去
    @z1249502889 我测试了一部 2 个多小时的影片没感觉到卡(转换后),如果在转换中去看是会卡的,whisper 默认是只保留 2 个核心给用户其它地方使用,其它都用来做计算了
    z1249502889
        38
    z1249502889  
       280 天前
    @Marksdo #37 具体表现是,随便拉翻译后的字幕,字幕的顺序会错乱,对应不到播放条上。如果音频时间比较长,字幕拉到一半,然后再拉到最开始的地方,会发现字幕不能回到最开始的时间点。
    zhufeilong
        39
    zhufeilong  
       276 天前
    @z1249502889 #38 我也遇到了这个问题 @Marksdo 希望有空能修复字幕顺序错乱的问题
    azurerayus
        40
    azurerayus  
       267 天前
    作者,经过使用发现了一点问题还有需要几个功能改进
    已知问题:
    1 、在原始字幕进行翻译后,发现错误进行修改原始字幕。再进行单行翻译,在左侧列表下依旧显示过往的错误翻译。没有进行翻译更新,但是在右侧的字幕预览中倒是没有问题。
    2 、更改字幕效果中的透明度无效,一旦尝试更改就始终维持在 100%不透明状态。

    功能需求:
    1 、增加对于 whisper api 的支持,可以放在付费项。这个对于低配机来说的确重要。就是一个分离音轨提交 api 就行。
    2 、增加对于 chatgpt 翻译支持,这个有很多成熟案例。AI 翻译还是要效果好一些,如果支持自定义 prompt ,那么对于一些视频先大致指定内容和翻译角色,应该效果会好很多。

    这个软件的功能其实我自己也尝试做过,这是个普遍的需求大家都有。一般再集成一个 youtube 下载器,支持部分网址的直接解析下载。本地识别或者 api 识别再翻译就是很流畅的流程了。

    价格方面本来看到有 5 刀,结果到昨天晚上就是 20 刀了。这个常态化价格我觉得还是在 10 刀以下更吸引人购入。
    azurerayus
        41
    azurerayus  
       267 天前
    对了,hugging face 上已经有了 whisper.cpp 再进行 coreml 转换的模型了,各个规模都有,增加下载链接就可以了,没必要还本地再转换。
    Marksdo
        42
    Marksdo  
    OP
       263 天前
    @z1249502889 试试最新的 3.5 版本是否还有这个问题?
    @zhufeilong 试试最新的 3.5 版本是否还有这个问题?
    Marksdo
        43
    Marksdo  
    OP
       263 天前
    @azurerayus 1 、在原始字幕进行翻译后,发现错误进行修改原始字幕。再进行单行翻译,在左侧列表下依旧显示过往的错误翻译。没有进行翻译更新,但是在右侧的字幕预览中倒是没有问题。
    回复:这个问题试试修改完后按 command+e 切换回非编辑状态,发现编辑的 TextFields 就是有这个问题,暂时没找到比较好的解决,我再找下

    2.更改字幕效果中的透明度无效,一旦尝试更改就始终维持在 100%不透明状态。
    回复:记录下了,应该是 bug,在下个版本 V3.5.1 修改


    功能需求:
    1 、增加对于 whisper api 的支持,可以放在付费项。这个对于低配机来说的确重要。就是一个分离音轨提交 api 就行。
    回复: 其实现在音轨已经是分离的,低配机好像也没场景用这个啊?不过用 whisper api 来翻译估计能再准确不少,我看下后面怎么整合进来,顺便介绍下新的 V3.5 已经可以对任何一条文案下载其音轨,并且选择多个字幕下载会自动合并为一条音轨

    2 、增加对于 chatgpt 翻译支持,这个有很多成熟案例。AI 翻译还是要效果好一些,如果支持自定义 prompt ,那么对于一些视频先大致指定内容和翻译角色,应该效果会好很多。
    回复:套 chatGPT 的不好弄,起码国内用不了,苹果发了邮件说我类似 GPT 的在国内已经下架....Motrix App 直接白搞

    一般再集成一个 youtube 下载器,支持部分网址的直接解析下载。本地识别或者 api 识别再翻译就是很流畅的流程了。
    回复:下载 Youtube 的不知道能不能上架苹果商店,套到不难,下个版本试试


    价格问题是这样上次苹果发邮件给我说国内有 ZC 不能上带 GPT 的上架,想着不对国内了就加价割老外了...,不急的老爹等后面打个非苹果商店版本出来,走其它途径便宜出
    Marksdo
        44
    Marksdo  
    OP
       263 天前
    @awfe 最新 V3.5 版本下载这块重写了支持了断点续传,帮忙再试试.
    Marksdo
        45
    Marksdo  
    OP
       263 天前
    @azurerayus coreml 模型首次都是要花本地再编译,hf 上的只是一个 coreml 格式文件,本地跑 Whipser 感觉起码 M1 Pro 起步, 我用 M1 跑 Medium 的模型都感觉慢的不可接受.实时识别只有 base 下可以接受响应速度
    Marksdo
        46
    Marksdo  
    OP
       263 天前
    @azurerayus 这个常态化价格我觉得还是在 10 刀以下更吸引人购入。
    好,我接受你的建议了,已改为$9.99 了
    zhufeilong
        47
    zhufeilong  
       263 天前
    @Marksdo 另外国区是下架了是吗,在已购已经下载不回来了
    Marksdo
        48
    Marksdo  
    OP
       263 天前
    国区不允许带 AI 的上架...需要等下,在看怎么打独立在商店外的版本,到时已购买的信息是可以复用的

    查了下带下载 youtube 视频的也是上架不了商店的,也需要将这个功能做在商店外的版本
    Marksdo
        49
    Marksdo  
    OP
       263 天前
    因为邮件里还有苹果写到不少如 ZC,ZF 这些相关的关键字,就不贴出来了,反正国区 AI 相关的估计都挂了
    azurerayus
        50
    azurerayus  
       262 天前
    现在的限制都是越来越多,这个东西呢我也想了一下有一些的套路。
    例如常见的内购绑定邮箱,然后 app store 以外的版本利用邮箱激活订阅。

    ai 翻译以及多网站下载还是很重要并且很好用的,这些都有开源实现,加进去很容易。一般软件加一个沟通群链接,带上些 wiki ,墙内墙外自己去找就差不多了。
    Marksdo
        51
    Marksdo  
    OP
       255 天前
    国区下载或更新不了的可以用这个
    https://marksdo.gumroad.com/l/whispermate
    支持 Youtube 的视频下载了

    用 V2EX-USERS 这个 Coupon 可以返回跟苹果商店一样的价格了.
    另外看了 Gumroad 的文档是支持 Affiliates, 有兴趣分成的或知道怎么玩的一起赚$啊
    Marksdo
        52
    Marksdo  
    OP
       255 天前
    貌似是注册好 GumRoad 的帐号,然后加入 Whisper Mate 的 Affiliates,这边生成你独有的链接,然后从链接进来 30 天内有销售就有提成
    azurerayus
        53
    azurerayus  
       254 天前
    一个是不同渠道销售的按照邮箱绑定激活,否则会有换机授权的问题。
    第二个是针对国内对于 AI 的限制,还可以采用插件的方式放在网上来下载。

    刚才在编辑字幕的时候遇到问题,有时语音识别一个接近的读音都会识别错,所以按照错误的结果来筛选。但是一旦对字幕进行任何一点修改,那么这一行也就不在筛选之列,瞬间消失了。
    应当在筛选后就不动态筛选,而是手动点击后再筛选。方便修改错误结果。

    一般做这个产品,至少给个个人站,和一点点 wiki 。
    zhufeilong
        54
    zhufeilong  
       253 天前
    @Marksdo 感谢开发商店外的版本
    Marksdo
        55
    Marksdo  
    OP
       243 天前
    @azurerayus 应当在筛选后就不动态筛选,而是手动点击后再筛选。方便修改错误结果。
    这个这周的 V4.0.1 加上,我自己也遇到过这个问题,要想下怎么解决
    @zhufeilong 之前的商店外版本有大 BUG...套 python 来下载 YT 视频失败...换了解决方案,现在应该比较完美了
    Marksdo
        56
    Marksdo  
    OP
       243 天前
    顺便调查下,大家觉得这个搞 iPad 版本有没有前景,有需求吗?个人感觉有,又貌似没,怕白搞
    azurerayus
        57
    azurerayus  
       242 天前
    @Marksdo 我估计难,主要是性能限制、用户喜好和版权限制。
    要搞 ipad 版,那估计就得上 whisper api 了,不比 mac ,用 ipad 的没几个愿意等转码时间。
    但是你这个没办法搞视频下载,然后实时识别需要的性能估计不够。m1 都难
    哪个用 ipad 的会去搞这个,受众太小,还不如期待他们用 mac 然后共享给 ipad
    Marksdo
        58
    Marksdo  
    OP
       240 天前
    可能 iPad 有一种使用场景,比如老外教授之类的课程时,如果外语不太好,可以拿着 iPad 来用 whisper Mate 进行大概的实时转录并且将课程语音录下来.找下苹果有没有方便的方式直接转 macOS 到 iPad , Mac Catalyst 貌似只能将 iPad 的转 mac,没有反过来的..q-_-p
    ttgo
        59
    ttgo  
       223 天前
    商店版与你网站上的版本有区别么?
    ttgo
        60
    ttgo  
       223 天前
    我想实时转录,试了一段新闻,我感觉"简化模型"是“可用”的下限了,
    然而"简化模型"做不到实时,我是 m1 pro 。
    azurerayus
        61
    azurerayus  
       219 天前
    你这个新版的怎么连带翻译导出字幕都不行了
    barryzhai
        62
    barryzhai  
       217 天前
    @Marksdo 您好,最新版本的 deepl 翻译出现错误,申请 deepl api 后填入出现:未能读取数据,因为他的格式不正确
    vegetablebird
        63
    vegetablebird  
       125 天前
    可以实时转录在线会议别人的发言吗?
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   我们的愿景   ·   实用小工具   ·   1152 人在线   最高记录 6543   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 28ms · UTC 18:01 · PVG 02:01 · LAX 11:01 · JFK 14:01
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.