背景
之前自己练琴想扒一首歌的贝斯线,市面上的工具要么只能分 4 轨 ( vocals/drums/bass/other ),要么订阅一个月用两次就忘了取消。 看到 Meta AI 的 htdemucs_6s 模型能分 6 轨(多了 guitar 和 piano ), 就花了几个月做了个站。
技术上踩了一些坑,分享出来给可能也想做类似东西的同学参考。
主流开源音频分离模型:
对比测了 spleeter / htdemucs / BS-RoFormer:
如果是离线批处理或专业制作,BS-RoFormer 应该是更好的选择。
最早自己开了 RunPod 4090 实例跑,跑通没问题,但有几个问题:
后来转去 Replicate ,按秒计费,没人用就 0 成本。 htdemucs 一首 3 分钟的歌大概 25-40 秒推理时间, 按 A40 GPU 计费下来单首 GPU 成本大概 2-3 美分。 对于一个早期阶段、流量不稳定的产品,按需付费比固定 GPU 划算太多。
对比过的几家:
YouTube 链接处理:用户贴 URL 比让他下载文件转格式 UX 好太多。 yt-dlp 是必备,但要处理大量 edge case (年龄限制、地区限制、live 流), 还得加超时和文件大小限制防滥用。
多轨同步播放器:6 个 stem 同时播放还要支持 mute/solo/seek , 一开始用 howler.js 单实例切换完全不行( latency 差几十 ms 听得出来), 最后用 Web Audio API 自己写了个共享 AudioContext 的播放器。
格式转换:用户上传可能是 MP3/WAV/FLAC/M4A/OGG/WEBM 各种格式, htdemucs 只吃 WAV 。前置 ffmpeg 转码层是必须的, 但 ffmpeg 在 Replicate 容器里跑得慢, 后来改成在自己服务器转码完再丢给 Replicate ,整体延迟降了 30%。
BPM/key 检测:用 librosa 自己算的,但 librosa 的 key detection 在电子乐上准确率一般,准备后续接入 essentia 重做。
有免费额度,够分两三首歌看看质量。如果想多跑几首,
V2EX 的同学可以在结账页用 v2ex 这个码,我加了点额度——主要是
想多收一些技术圈的反馈,特别是中文歌的分离效果。
主要想问几个问题:
谢谢各位,欢迎拍砖。
1
yanhuqing666 3h 44m ago
订阅问题“Replicate 之外有没有更便宜的 GPU serverless 平台值得试?”结论
|
2
LuliYanng 2h 33m ago
我之前也搞过 不过那时候好像这些 GPU serverless 还不成熟,我还是租国内云 GPU 厂商的 7 天特惠 T4 GPU 玩的。至于你说的分离效果,有能力你当然可以自己改进模型😝 不过感觉近些年好像也没什么进展了 当时还想着有没有模型能够强大到把节奏吉他和主奏吉他给分离出来的,不过等了两三年了,似乎没什么消息,估计已经发展到头了吧(至少对于这个领域的需求来说)
|
3
AuYuHui 2h 31m ago
|