最近有个小进展,项目相关内容被知乎官方推荐了一下,感觉挺意外也挺开心,所以来 V 站 纪念一下哈哈!!最近也在积极使用 windows 来尝试部署。欢迎大家多多支持体验~
可以去知乎看看被 pick 的帖子: https://www.zhihu.com/pin/2042970331149596175?native=1&scene=share&utm_psn=2043470668075888834
项目 GitHub (已经 830+ stars 了 感谢大家支持):
https://github.com/datascale-ai/opentalking
实机演示: https://www.bilibili.com/video/BV1u5GR6vE8b/?vd_source=4820076c616e58ceb357c528a571ff11
目前在 3050(windows), 3090(linux),4090(linux), ascend 910B 上面都做了测试,实测性能数据:
https://datascale-ai.github.io/opentalking/reference/benchmark/#_12
这个项目主要想做的是:让普通开发者也能比较容易地本地部署一个实时对话数字人。不是单纯做“嘴动一下”的 Demo ,而是把实时数字人的完整链路尽量跑通,包括:
* ASR / TTS / LLM / 数字人视频生成
* WebUI 交互
* 本地部署
* 低延迟实时对话
* MuseTalk / FlashTalk 等不同方案的接入和对比
目前项目还在持续优化中,最近也在做一些部署体验和推理效果方面的改进,比如 Windows 用户更方便地一键启动、本地显卡部署、不同数字人模型的效果对比等等。
我自己做这个项目的初衷其实很简单:现在数字人平台很多,但大部分都是闭源 SaaS ,开发者想真正理解里面的链路、自己改模型、自己接 LLM / TTS / ASR ,门槛还是挺高的。所以我想把这套东西做成一个更开放、更适合开发者学习和二次开发的项目。
知乎官方推荐这件事对我来说算是一个小鼓励,也说明大家对“开源实时数字人”这个方向还是有兴趣的。
欢迎大家体验、提 issue 、给建议。如果觉得这个方向有意思,也希望可以顺手点个 Star 支持一下,后面我会继续把部署教程、模型接入、实时链路优化这些内容补齐。
也想问问 V2EX 的各位:
大家觉得实时数字人开源项目,最应该优先优化哪块?
1. 本地部署体验
2. 数字人生成效果
3. 实时延迟
4. TTS / 声音克隆
5. WebUI 易用性
6. Windows 一键启动
欢迎拍砖。
可以去知乎看看被 pick 的帖子: https://www.zhihu.com/pin/2042970331149596175?native=1&scene=share&utm_psn=2043470668075888834
项目 GitHub (已经 830+ stars 了 感谢大家支持):
https://github.com/datascale-ai/opentalking
实机演示: https://www.bilibili.com/video/BV1u5GR6vE8b/?vd_source=4820076c616e58ceb357c528a571ff11
目前在 3050(windows), 3090(linux),4090(linux), ascend 910B 上面都做了测试,实测性能数据:
https://datascale-ai.github.io/opentalking/reference/benchmark/#_12
这个项目主要想做的是:让普通开发者也能比较容易地本地部署一个实时对话数字人。不是单纯做“嘴动一下”的 Demo ,而是把实时数字人的完整链路尽量跑通,包括:
* ASR / TTS / LLM / 数字人视频生成
* WebUI 交互
* 本地部署
* 低延迟实时对话
* MuseTalk / FlashTalk 等不同方案的接入和对比
目前项目还在持续优化中,最近也在做一些部署体验和推理效果方面的改进,比如 Windows 用户更方便地一键启动、本地显卡部署、不同数字人模型的效果对比等等。
我自己做这个项目的初衷其实很简单:现在数字人平台很多,但大部分都是闭源 SaaS ,开发者想真正理解里面的链路、自己改模型、自己接 LLM / TTS / ASR ,门槛还是挺高的。所以我想把这套东西做成一个更开放、更适合开发者学习和二次开发的项目。
知乎官方推荐这件事对我来说算是一个小鼓励,也说明大家对“开源实时数字人”这个方向还是有兴趣的。
欢迎大家体验、提 issue 、给建议。如果觉得这个方向有意思,也希望可以顺手点个 Star 支持一下,后面我会继续把部署教程、模型接入、实时链路优化这些内容补齐。
也想问问 V2EX 的各位:
大家觉得实时数字人开源项目,最应该优先优化哪块?
1. 本地部署体验
2. 数字人生成效果
3. 实时延迟
4. TTS / 声音克隆
5. WebUI 易用性
6. Windows 一键启动
欢迎拍砖。
