有哪些时间戳比较准确的语音转字幕服务？

V2EX = way to explore

V2EX 是一个关于分享和探索的地方

现在注册

已注册用户请登录

• 请不要在回答技术问题时复制粘贴 AI 生成的内容

这是一个创建于 53 天前的主题，其中的信息可能已经有所发展或是发生改变。

场景：做视频加字幕（中文，不需要翻译），希望先自动出个字幕，然后人工校对

可接受付费，最好付给不会跑路的大厂

尝试过：

1. 本地跑 openai-whipser

本地跑 Python ，比较慢
识别中文的时候，时间戳只能精确到 1 秒，而不是 0.1 秒（明明识别日语的时候都可以精确到 0.1 秒），导致字幕展示时间不精确，不能用

2. 剪映字幕识别

需要剪映 SVIP ，每月有免费额度
断开的位置经常在一句话的中间，但我希望一个完整的意思作为一条字幕，需要后期人工修正时间轴

3. 腾讯云录音文件识别 https://cloud.tencent.com/document/product/1093/37823

单句太长，20 多秒中间没有任何断句，作为字幕不可行

语音转字幕

时间戳精度

大厂服务

12 条回复 • 2025-03-24 20:00:32 +08:00

JensenQian

53 天前

飞书以前有免费额度的
最近不知道是不是限制了我记得

timerring

53 天前

我在去年下半年做过一个直播录制识别字幕并压制的项目 https://github.com/timerring/bilive

我基本上试遍了市面上的字幕识别项目以及 api ，效果很难达到你说的既能精确到 0.1 秒（实际上精确到 0.1 秒作用也不大，除非你做的是某类型的说唱字幕，1 秒能输出若干字），又能准确识别断句，还能合理地将句子划分刚好合适，最后还是选择本地跑 openai 的 whisper ，其实很多时候没有 silver bullet ，但就 asr 任务来说，要方便就选剪映，要实惠就选本地跑 whisper ，至于其他云服务商例如腾讯云，讯飞，谷歌等等，则是既不实惠也不方便，效果也没差别。

mumbler

53 天前

groq 刚刚开放了付费，whisper 飞一样的速度，还很便宜

rekulas

53 天前

我之前搞过,基于开源语音识别+分词进行字幕生成, 纯中文下误差可以控制在 200ms 内, 用于视频生产服务, 后面空了整理个开源出来

yeqizhang

53 天前 via Android

用 faster-whipser ，显卡好点就会快点

coreJK

53 天前 via Android

可以试试 potplayer 的，有声字幕功能，满足你的场景，带字幕浏览器功能，可人工编辑导出（封装的 faster-whipser ），挺好用的

Nosub

53 天前 via iPhone

看到熟悉的话题，说两句，无论腾讯云还是阿里云，都可以精确到词的 api 参数，如果你是程序员，写一个分词并不难，另外如果你是自己制作视频，不是做软件，用剪映旧版本，语音识别没有次数限制。

henix

52 天前

@Nosub 确实，我今天又看了下，有精确到词的 api 参数，之前只是在控制台网页上试了一下

shellus

52 天前

相对来说，剪映识别效果最好，人工修正必不可少的。

heimoshuiyu

52 天前

> 本地跑 Python ，比较慢

使用 faster-whisper + 显卡

> 识别中文的时候，时间戳只能精确到 1 秒，而不是 0.1 秒（明明识别日语的时候都可以精确到 0.1 秒），导致字幕展示时间不精确，不能用

开启 word level timestamp ，默认是不开的

> 翻译

使用 https://heimoshuiyu.github.io/whisper-web/ 转录同时利用 GPT 翻译字幕

sophos

43 天前

最近写了个 app ，基于 whisper 实现本地转字幕，转写准确度和速度都还可以，堪比抖音
还可以导出工程文件到 final cut pro 或其他剪辑软件，导出时可以选择去掉空白片段，自动完成粗剪

应该完全能满足你的需求，准备过段时间上 app store ;-)

Nosub

9 天前 via iPhone

再次回复，因为之前没有开发完成，可以试试我开发的软件，已经接入阿里云达摩院的离线语音引擎 funasr ，目前已经完全支持 Windows ，Linux 和 MacOS ，Nosub v2.6.0Beta1 支持离线语音识别和视频压制
https://github.com/patui/Nosub/releases/tag/2.6.0Beta1