V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
爱意满满的作品展示区。
heimoshuiyu
V2EX  ›  分享创造

自建 PC 端的语音输入工具

  •  
  •   heimoshuiyu · 2 天前 · 570 次点击
    我写了一个脚本,绑定快捷键可以调用自建的 OpenAI whisper 进行语音输入,你可以通过桌面通知看到识别状态。

    最重要的是,它可以根据我选中的上下文来增强识别的结果。就算是一些特殊名词,比如说 V2EX ,初音未来,哈次捏米库,它都可以很好地识别出来。

    demo 视频(有剪辑): https://yongyuancv.cn/ipfs/Qmbitjuouf7ZsbPeneFZK5v8bv8ZXhPnzLcJ4EymZfJnk9?filename=1.webm
    脚本(只支持 Linux 和 Mac ): https://yongyuancv.cn/ipfs/QmWTh8PYDN8ebpfGe2i79NdHJjHhPYN72NNVg6L4ecRj4w?fileanme=voice-typing.sh

    whisper 可以用官方的也可以本地自建 API https://github.com/heimoshuiyu/whisper-fastapi
    4 条回复    2024-12-21 12:44:56 +08:00
    ivyliner
        1
    ivyliner  
       2 天前
    看着不错, 上下文增强识别结果是怎么做的?
    heimoshuiyu
        2
    heimoshuiyu  
    OP
       1 天前 via Android
    @ivyliner 把剪切板里的内容作为 prompt 发送,whisper 是 transformer 架构,可以根据 prompt 识别
    wkla
        3
    wkla  
       1 天前
    所以没有 windows ?
    heimoshuiyu
        4
    heimoshuiyu  
    OP
       1 天前 via Android
    @wkla Windows 不知道怎么绑定快捷键执行脚本录制音频读取剪切板根据 PID 发送信号,需要一个 Windows 糕手来帮我
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   2477 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 21ms · UTC 05:03 · PVG 13:03 · LAX 21:03 · JFK 00:03
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.