1
spotsung OP 新人贴,多担待哈
|
2
vacuitym 79 天前
我目前在做一个从视频提取音频然后识别为文字然后翻译的,本来准备做来给小电影加字幕的。快做完了,但是发现用的音频识别要 2.5/h ,在纠结要不要继续做
|
3
younger027 78 天前
@vacuitym 音频转文字吗?开源的模型有试过吗?
|
4
vacuitym 78 天前
@younger027 还没试过,主要是我也没卡跑
|
5
GeekGao 78 天前
我在做类似的工具,不过这类工具应用,国外已经有一些了。
|
6
spotsung OP @vacuitym 我觉得这块的价格成本其实还不错.至少从你发上来的这个成本来说我觉得是完全可以承担的.
1.你说的小电影是否跟我说的国内这些影视内容二创一样? 2.我所提到的这些可能比较繁琐而线路情绪的流程来说是否可以完成,或者说现有的产品或者模型是否可以覆盖? 求解 |
11
younger027 76 天前
@spotsung 就这一整套逻辑来说,目前模型+python 可以完成(已经实验过),成本不会很高。但是有几个问题哈。
1.提出的音频质量如何,这个很影响转文字的质量,据我实验中文视频的错误率比英文会高很多,比如中文名,多音字。所以你可能需要些技术,降噪?去回音? 2.大模型的翻译(中--》英,韩,日)质量都不高,google 的付费翻译接口,也只是个平均值的效果。 3.目前 tts 的效果确实不错,声音效果不错。chattts,cosyvoice,gptsovits 都可以试试看。 4.我尝试过音轨合并,然后合成到原来的视频上,这一部很难,效果不好。主要是 1.换语言后,句子发音长短不一样。2.整体合并的效果很不好,听起来很别扭。(我使用 python 包搞的,如果你的效果好的话,也可以分享下。) 基本我经历的就这么几个问题,你可以试试看。毕竟不动手,啥问题也没有。动手了,问题和我也不一定一样。 |
12
spotsung OP @younger027 认真几次看完你的总结,暂时先归类为总结.感觉非常到位."不动手,啥问题都没有."动手了问题会很多
接着再问: 我这边项目的话基本上算是立项了,只能往前走,虽然也是一个测试性的项目,但是也想认真对待,摸透彻.我想知道是否可以联络你,一起探讨?不知道是否可以直接留下我的邮箱,我先尝试留下 [email protected] |