ChatGPT 语音对话技术

V2EX = way to explore

V2EX 是一个关于分享和探索的地方

现在注册

已注册用户请登录

推荐关注

› Meteor

› JSLint - a JavaScript code quality tool

› D3.js

推荐书目

› JavaScript 权威指南第 5 版

这是一个创建于 55 天前的主题，其中的信息可能已经有所发展或是发生改变。

请教下大家 ChatGPT 里高级语音模式是怎么实现的有 js 库可以使用吗

之前很早有做过跟 gpt 对话的插件也加了语音识别但是做不到戴上耳机后的自由对话经常会自动中断

第 1 条附言 · 55 天前

有没有开源的方案可以实现呢 OpenAI 的 realtime api 太贵了如果有个 demo 可以自己接入语音识别和文本转语音就好了中间可能还有个需要对话的 api 场景是锻炼一下口语（小语种）

8 条回复 • 2025-02-03 19:37:50 +08:00

love060701

55 天前 via iPhone

原生语音多模态模型，使用 OpenAI 的 Realtime API 可以实现，或者用开源的 TEN Agent 方案

XTTX

55 天前

subtleworks

55 天前

@love060701 谢谢回复我主要是对它怎么实现在浏览器里一边听一边说感兴趣看到 TEN Agent 里好像用的是 agora? 我以为就是简单的 web speech api 来实现

flyqie

55 天前 via Android

没记错的话方案基本上都是 webrtc 吧？

用户这边语音发出去之后服务端 stt 然后 ai 模型识别最后用 tts 转完发给用户。

flyqie

55 天前 via Android

@flyqie #4

ai 模型识别 -> ai 模型处理用户的问题

TimePPT

55 天前 via Android

OpenAI 自家 API ，支持 WebRTC 的

flyqie

55 天前

@flyqie #4

另外 webrtc 可能是双向的也可能是单向的。

比如 tts 可能是在客户端做的，也可能是在服务端做的。

但是 stt 一般不会在客户端做。

easychen

55 天前

我想你可能找 VAD 。它可以检测用户说话，从而实现打断。
OpenAI 的 Realtime 有 sdk 和 demo ，我记得是用 Websocket 实现的，里边也有可以开启的 vad 功能。