优化了下自用的本地播客翻译工具,欢迎体验和建议

4 月 30 日
 R0sin

TL;DR

之前的版本依赖阿里云做翻译和 TTS ,现在增加了谷歌免费翻译和本地开源 qwen-tts 等渠道来避免厂商依赖。目前自己试听几轮下来效果基本满意,欢迎体验和建议。

快速开始

环境中需要先准备 ffmpeguv

# 使用 uv 安装 CLI
uv tool install --torch-backend auto "podtran[qwen-local] @ git+https://github.com/R0sin/podtran"
# 初始化配置,默认路径为 ~/.podtran/config.toml
podtran init

初始化时需要填写 HF_TOKEN,主要为了使用 WhisperX 依赖的开源人声分离模型,引导中有跳转链接。

也可以参考 README 下载源码运行。

安装配置完就能直接用了(首次运行需要下载模型):

# 截取前五分钟测试效果
podtran <audio_path> --preview
# 跑完整音频翻译流水线
podtran <audio_path>
# 继续上一个中断的任务
podtran resume

下载前也可以先试听我简单测试的效果预览

补充说明

配置中部分考虑了环境设备,有些还得自己根据使用情况调整优化,手头仅测试了 cpu/3060ti/3090 的 Windows/Linux 环境。家里 3060ti 跑完一小时播客的完整翻译流水线大约用了三十几分钟。

遗憾手头没有 mac ,暂未支持 MLX 部署。

文档可能有遗漏,有问题欢迎反馈,顺便求点 Star ,谢谢!

相关链接

博客记录:https://blog.r0sin.com/podcast-translator-improvement

项目地址:https://github.com/R0sin/podtran

1159 次点击
所在节点    分享创造
5 条回复
Cabana
4 月 30 日
哈哈,这样一句英语一句翻译的听英语播客还第一次见。这样 1 个小时的播客岂不是要听 2 小时
fansize
4 月 30 日
很棒,因为手头只有 macos 所以没法测试,好奇你现在的配置 1 小时的播客,本地跑完大概要多久呢
R0sin
4 月 30 日
@Cabana #1 其实配置里也可以改成仅中文输出。主要自己通勤听想顺便锻炼下听力,默认就按个人偏好来了
R0sin
4 月 30 日
@fansize #2 默认配置下用 3060ti 跑要三十几分钟,cpu 跑测试吃到 10g 左右内存的话估计要三个小时吧
R0sin
4 月 30 日
@azhangbing 更新支持本地 qwen3-tts 了,欢迎试用

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/1209539

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX