V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
推荐关注
Meteor
JSLint - a JavaScript code quality tool
jsFiddle
D3.js
WebStorm
推荐书目
JavaScript 权威指南第 5 版
Closure: The Definitive Guide
subtleworks
V2EX  ›  JavaScript

ChatGPT 语音对话技术

  •  
  •   subtleworks · 19 天前 · 2179 次点击

    请教下大家 ChatGPT 里高级语音模式是怎么实现的 有 js 库可以使用吗

    之前很早有做过跟 gpt 对话的插件 也加了语音识别 但是做不到戴上耳机后的自由对话 经常会自动中断

    第 1 条附言  ·  18 天前
    有没有开源的方案可以实现呢 OpenAI 的 realtime api 太贵了 如果有个 demo 可以自己接入语音识别和文本转语音就好了 中间可能还有个需要对话的 api 场景是锻炼一下口语(小语种)
    8 条回复    2025-02-03 19:37:50 +08:00
    love060701
        1
    love060701  
       19 天前 via iPhone
    原生语音多模态模型,使用 OpenAI 的 Realtime API 可以实现,或者用开源的 TEN Agent 方案
    XTTX
        2
    XTTX  
       18 天前
    https://x.com/thorwebdev/status/1885327180445478952 有语音付费 api , 语音 api 套 AI api.
    subtleworks
        3
    subtleworks  
    OP
       18 天前
    @love060701 谢谢回复 我主要是对它怎么实现在浏览器里一边听一边说感兴趣 看到 TEN Agent 里好像用的是 agora? 我以为就是简单的 web speech api 来实现
    flyqie
        4
    flyqie  
       18 天前 via Android
    没记错的话方案基本上都是 webrtc 吧?

    用户这边语音发出去之后服务端 stt 然后 ai 模型识别最后用 tts 转完发给用户。
    flyqie
        5
    flyqie  
       18 天前 via Android
    @flyqie #4

    ai 模型识别 -> ai 模型处理用户的问题
    TimePPT
        6
    TimePPT  
       18 天前 via Android
    OpenAI 自家 API ,支持 WebRTC 的
    flyqie
        7
    flyqie  
       18 天前
    @flyqie #4

    另外 webrtc 可能是双向的也可能是单向的。

    比如 tts 可能是在客户端做的,也可能是在服务端做的。

    但是 stt 一般不会在客户端做。
    easychen
        8
    easychen  
       18 天前
    我想你可能找 VAD 。它可以检测用户说话,从而实现打断。
    OpenAI 的 Realtime 有 sdk 和 demo ,我记得是用 Websocket 实现的,里边也有可以开启的 vad 功能。
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   2895 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 20ms · UTC 09:01 · PVG 17:01 · LAX 01:01 · JFK 04:01
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.