想做有声小说声音克隆, 3060Ti 能扛得住吗?

2025 年 10 月 13 日
 EasonIndie

V 友们好,最近想自己做一个 中文有声小说项目,希望呻吟自然流畅、语气生动、有停顿、笑声这些表达。 目标是 克隆自定义声音(我自己或一些受欢迎的配音),然后批量生成小说音频。


💡 我的需求大致是:

  1. 先克隆/微调一个中文声音,让声音自然、不机械。
  2. 风格希望像相声那种“说学逗唱”的语气——要能控制节奏、停顿、情绪。
  3. 后期做有声小说输出

🖥️ 当前设备配置:


🔧 初步技术路线:

我目前查下来主要有两条思路:

  1. 快速上手路线(生成类)

    • 使用 Suno Bark 或类似大模型,直接生成多情感中文语音;
    • 适合先试效果、调节 prompt 实现“相声语气”;
    • 缺点是声音不一定稳定、不可控。
  2. 高可控路线(训练类)

    • 管线:Speaker Encoder → VITS / Coqui-TTS → HiFi-GAN ;
    • 录制 20 ~ 60 分钟高质量音频做微调;
    • 目标是克隆稳定音色、能生成自然语调的中文语音;
    • 支持 prosody / style token 控制节奏语气。

计划在本地用 PyTorch + CUDA 训练/推理,显存有限的话准备上 fp16 + LoRA + 梯度累积 等优化。


❓ 想请教 V 友们:

  1. 3060 12GB 或 3060Ti 8GB 能胜任 TTS / 声音克隆任务?

    • 听说显存容量在 TTS 场景下比算力更关键,想听下大家的实测经验。
  2. 如果只做轻量微调(不从零训练),3060Ti 是否足够?

  3. 有没有人实际在本地跑过 Bark / VITS / Coqui-TTS / HiFi-GAN 这类项目?

    • 推理速度和显存占用大概怎样?
    • 有没有推荐的显存优化技巧?
  4. 对于“相声风格”的语音,有没有成熟的风格迁移或 prosody 控制方法?


✅ 目标:

能在家用机上稳定生成相声风格的有声小说音频,自己做声音模型和后期,长期迭代。


大家有做过类似声音克隆 / 本地 TTS 项目的,求分享经验和显卡选型建议 🙏

2964 次点击
所在节点    机器学习
24 条回复
weixind
2025 年 10 月 13 日
声音大概可以。

呻吟就不知道了。
EasonIndie
2025 年 10 月 13 日
@weixind 打错了,不过声音都行了,呻吟也不在话下吧
Kg01
2025 年 10 月 13 日
你这小说正经不
shiny
2025 年 10 月 13 日
什么什么,听说这里有不正经小说?
azwcl
2025 年 10 月 13 日
@EasonIndie 你这个我咋感觉不太正经,我们可是正人君子,(正经的我不看);[旺柴]
xooass
2025 年 10 月 13 日
细说呻吟
dzdh
2025 年 10 月 13 日
所以当下哪个模型生成的音频最自然。
manhere
2025 年 10 月 13 日
声音模型一般要求都比视频的低,如果不要求实时,那要求还可以再低点。
SummerOrange
2025 年 10 月 13 日
呻吟自然流畅,这这,做完给我听听
SummerOrange
2025 年 10 月 13 日
能扛住,我这个苹果笔记本之前都跑过一些
v2er4241
2025 年 10 月 13 日
复制别人的声音可能会涉及侵权问题。
renmu
2025 年 10 月 13 日
声音克隆简单,语调难
EasonIndie
2025 年 10 月 13 日
@manhere 嗯嗯,不要求实时的
EasonIndie
2025 年 10 月 13 日
@renmu 语调是不是也可以通过标注来实现呢。
例如:话说这事儿啊,[break=long]您猜怎么着?[laugh]他居然把鞋穿反了!
wyd011011daniel
2025 年 10 月 13 日
@EasonIndie #14 可以的 可以了解一下微软的 azure TTS 的 语音合成标记语言 (SSML)

https://learn.microsoft.com/zh-cn/azure/ai-services/speech-service/speech-synthesis-markup

我自己对 TTS 的小说需求很高,我是使用 Azure api 的 xiaoxiao 的 百分之 67 速度的抒情版本听书的。

我的方案在这里

https://daniel011011-cdn.gitblog.xyz/posts/5

我个人认为,如果你需求量不是很大,可以直接用云的 api 实时 TTS ,每个月 50W 字符免费,也可以教育优惠的 100 刀走 api 生成一些
wyd011011daniel
2025 年 10 月 13 日
@EasonIndie #14 如果是商业化项目 直接购买 Azure 服务是挺好的选择

https://www.bilibili.com/video/BV1y9xfewENN/

这个是 Azure TTS HD 的案例
superrichman
2025 年 10 月 13 日
你的输入法让我觉得你这个不是什么正经小说 🐶
darkway
2025 年 10 月 13 日
哈哈哈哈
EasonIndie
2025 年 10 月 13 日
@SummerOrange #9 哈哈哈,去 p 站找找自制 homemade ,真自制的应该比较自然
EasonIndie
2025 年 10 月 13 日
@klo424 打上侵删如何?我主要还是给自己用。

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/1164848

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX