V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
• 请不要在回答技术问题时复制粘贴 AI 生成的内容
henix
V2EX  ›  程序员

有哪些时间戳比较准确的语音转字幕服务?

  •  
  •   henix ·
    henix · 3 天前 · 1166 次点击

    场景:做视频加字幕(中文,不需要翻译),希望先自动出个字幕,然后人工校对

    可接受付费,最好付给不会跑路的大厂

    尝试过:

    1. 本地跑 openai-whipser

    • 本地跑 Python ,比较慢
    • 识别中文的时候,时间戳只能精确到 1 秒,而不是 0.1 秒(明明识别日语的时候都可以精确到 0.1 秒),导致字幕展示时间不精确,不能用

    2. 剪映字幕识别

    • 需要剪映 SVIP ,每月有免费额度
    • 断开的位置经常在一句话的中间,但我希望一个完整的意思作为一条字幕,需要后期人工修正时间轴

    3. 腾讯云录音文件识别 https://cloud.tencent.com/document/product/1093/37823

    • 单句太长,20 多秒中间没有任何断句,作为字幕不可行
    10 条回复    2025-02-09 16:57:47 +08:00
    JensenQian
        1
    JensenQian  
       3 天前
    飞书以前有免费额度的
    最近不知道是不是限制了我记得
    timerring
        2
    timerring  
       3 天前   ❤️ 1
    我在去年下半年做过一个直播录制识别字幕并压制的项目 https://github.com/timerring/bilive

    我基本上试遍了市面上的字幕识别项目以及 api ,效果很难达到你说的既能精确到 0.1 秒(实际上精确到 0.1 秒作用也不大,除非你做的是某类型的说唱字幕,1 秒能输出若干字),又能准确识别断句,还能合理地将句子划分刚好合适,最后还是选择本地跑 openai 的 whisper ,其实很多时候没有 silver bullet ,但就 asr 任务来说,要方便就选剪映,要实惠就选本地跑 whisper ,至于其他云服务商例如腾讯云,讯飞,谷歌等等,则是既不实惠也不方便,效果也没差别。
    mumbler
        3
    mumbler  
       3 天前
    groq 刚刚开放了付费,whisper 飞一样的速度,还很便宜
    rekulas
        4
    rekulas  
       3 天前
    我之前搞过,基于开源语音识别+分词进行字幕生成, 纯中文下误差可以控制在 200ms 内, 用于视频生产服务, 后面空了整理个开源出来
    yeqizhang
        5
    yeqizhang  
       3 天前 via Android
    用 faster-whipser ,显卡好点就会快点
    coreJK
        6
    coreJK  
       3 天前 via Android
    可以试试 potplayer 的,有声字幕功能,满足你的场景,带字幕浏览器功能,可人工编辑导出(封装的 faster-whipser ),挺好用的
    Nosub
        7
    Nosub  
       3 天前 via iPhone   ❤️ 1
    看到熟悉的话题,说两句,无论腾讯云还是阿里云,都可以精确到词的 api 参数,如果你是程序员,写一个分词并不难,另外如果你是自己制作视频,不是做软件,用剪映旧版本,语音识别没有次数限制。
    henix
        8
    henix  
    OP
       3 天前
    @Nosub 确实,我今天又看了下,有精确到词的 api 参数,之前只是在控制台网页上试了一下
    shellus
        9
    shellus  
       3 天前
    相对来说,剪映识别效果最好,人工修正必不可少的。
    heimoshuiyu
        10
    heimoshuiyu  
       3 天前   ❤️ 1
    > 本地跑 Python ,比较慢

    使用 faster-whisper + 显卡

    > 识别中文的时候,时间戳只能精确到 1 秒,而不是 0.1 秒(明明识别日语的时候都可以精确到 0.1 秒),导致字幕展示时间不精确,不能用

    开启 word level timestamp ,默认是不开的

    > 翻译

    使用 https://heimoshuiyu.github.io/whisper-web/ 转录同时利用 GPT 翻译字幕
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   4186 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 21ms · UTC 10:12 · PVG 18:12 · LAX 02:12 · JFK 05:12
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.