ChatGPT 语音对话技术

265 天前

subtleworks

请教下大家 ChatGPT 里高级语音模式是怎么实现的有 js 库可以使用吗

之前很早有做过跟 gpt 对话的插件也加了语音识别但是做不到戴上耳机后的自由对话经常会自动中断

3484 次点击

所在节点

8 条回复

love060701

265 天前

原生语音多模态模型，使用 OpenAI 的 Realtime API 可以实现，或者用开源的 TEN Agent 方案

XTTX

265 天前

subtleworks

265 天前

@love060701 谢谢回复我主要是对它怎么实现在浏览器里一边听一边说感兴趣看到 TEN Agent 里好像用的是 agora? 我以为就是简单的 web speech api 来实现

flyqie

265 天前

没记错的话方案基本上都是 webrtc 吧？

用户这边语音发出去之后服务端 stt 然后 ai 模型识别最后用 tts 转完发给用户。

flyqie

265 天前

@flyqie #4

ai 模型识别 -> ai 模型处理用户的问题

TimePPT

265 天前

OpenAI 自家 API ，支持 WebRTC 的

flyqie

265 天前

@flyqie #4

另外 webrtc 可能是双向的也可能是单向的。

比如 tts 可能是在客户端做的，也可能是在服务端做的。

但是 stt 一般不会在客户端做。

easychen

264 天前

我想你可能找 VAD 。它可以检测用户说话，从而实现打断。
OpenAI 的 Realtime 有 sdk 和 demo ，我记得是用 Websocket 实现的，里边也有可以开启的 vad 功能。

第 1 页／共 1 页

这是一个专为移动设备优化的页面（即为了让你能够在 Google 搜索结果里秒开这个页面），如果你希望参与 V2EX 社区的讨论，你可以继续到 V2EX 上打开本讨论主题的完整版本。

V2EX 是创意工作者们的社区，是一个分享自己正在做的有趣事物、交流想法，可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.