做了一个自然语音生成的 AI 模型,大家提点意见

198 天前
 Simon95
自己做了一个语音生成的网站,www.zideai.com
不是普通的文字转语音,支持克隆声线,并且生成出来的是自然语音,就是没有机械感。
语音模型是自己写的,自己训练的
和大模型结合做了个 Demo ,感觉这种交互模态不错,起码很自然。演示视频 https://www.bilibili.com/video/BV1tg4y1d7Ee/
网站上也可以体验下,但部署的 GPU 有限,有可能进不去。
用的 webrtc 直连 GPU ,延迟在 3s 左右,后面再优化语音模型可以做到对话零延迟。
优势:
1. 接近于真人的自然发声,包括停顿,韵律等。
2. 可以用一段 3s 的语音克隆声线,视频里有展示。
3. 全中文数据训练的,所以说话没有老外的感觉。
4. 模型可以支持多语言,就是用日语的声音生成中文的语音(暂时还没训练)。
缺点:
1. 生成可能还不太稳定,声线容易跑偏。
2. 很耗 GPU ,是传统语音生成的很多倍。
后续:
训练成本太高了,一个人做吃不消。。。不知道有没有前景,可以的话出一些硬件。比如智能音箱?和手办对话?大家给点意见。
3281 次点击
所在节点    分享创造
51 条回复
LDa
198 天前
天 这个太自然了!
passerby233
198 天前
棒!
maocat
198 天前
虽然是痴心妄想,但我还是想问,开源吗/dog
Simon95
198 天前
@maocat 我也想开,但是和大佬们的没法比,主要是数据比较多而已。。。
scp3041
198 天前
训练成高的化,多买点显卡,本地训练不行吗,比云 GPU 便宜很多吧
Simon95
198 天前
@scp3041 买不起,百万起的东西。
qweruiop
198 天前
op 开源下呗,学习学习。。。
xming
198 天前
英语能行吗
jifengg
198 天前
中文效果很好,继续关注
wpyfawkes
198 天前
发音挺自然,但是断句和停顿不是那么自然.😂
期待楼主更加牛 X 的版本.
shadio
198 天前
语音接近真人,但停顿轻重这些还不太准备。不过已经很不错了。支持 ssml 吗,方便用户后续微调。
linshuizhaoying
198 天前
就这个语气一直都是很低沉的。。。其他表现还可以的
Metre
198 天前
前几天看了 heygen ,看完之后我就不想让我小孩学习外语了。。。
isSamle
198 天前
这很容易被利用吧,骚扰电话+获取录音+AI 生成+各种非法使用
zoharSoul
198 天前
可以当成 tts 用吗?
asrpub
198 天前
角色用的是固定的 prompt 吧?
zagfai
198 天前
说不来粤语 嘿嘿
Simon95
198 天前
@shadio 估计支持 ssml 难度比较大,因为有上下文理解能力,就是会根据文本信息和声音信息自己生成情绪,语气等
Simon95
198 天前
@zoharSoul 就是 tts ,就是应用场景估计和传统的有区别,需要好好想想
Simon95
198 天前
@zagfai 小众方言难做啊,我就是说粤语的,配音没听出来一口广普味?

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://www.v2ex.com/t/984779

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX