V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
sprinter
V2EX  ›  程序员

请问大神: 有啥软件或算法能把一段谈话音频按照谈话的每个字切割成 N 段仅有一个字的短音频?

  •  
  •   sprinter · 2020-11-12 14:53:16 +08:00 · 2030 次点击
    这是一个创建于 1471 天前的主题,其中的信息可能已经有所发展或是发生改变。

    请问大神:

    有一段英语谈话音频: Donald J. Trump is the 45th President of the United States.

    请问有啥软件或算法能把上述一段谈话音频按照谈话的每个字切割成 N 段仅有一个字的短音频, 如切割成:

    Donald

    J.

    Trump

    is

    the

    45th

    President

    of

    the

    United

    States.

    切割成上述 11 段仅有一个字的短音频. 请问有啥软件或算法能自动实现这个功能?

    烦请出出主意, 小女在此谢谢各位大神了!

    15 条回复    2021-01-05 02:47:06 +08:00
    knightdf
        1
    knightdf  
       2020-11-12 14:57:15 +08:00
    这直接按波峰波谷切就行了吧?
    oatw
        2
    oatw  
       2020-11-12 15:02:58 +08:00
    额,好像还是有难度的。英语为母语的人会有各种连读和略音,一句话里的发音都不是覆盖所有单词的,所以理论上来看是没法直接把每个单词从原音切出来的。

    如果只是追求每个单词的发音,而不强求原声,觉得可以试试先调用语音识别的接口识别成文本,然后再 ai 读单词,哈哈哈~
    jmc891205
        4
    jmc891205  
       2020-11-12 15:10:29 +08:00
    感觉各种连读吞音很难从音频上区分
    你还是说说你为什么有这样需求吧
    如果是先识别成文本,然后做分词,再按分词结果转换成每个词的语音,那我感觉还好做一些
    takemeaway
        5
    takemeaway  
       2020-11-12 15:52:16 +08:00   ❤️ 1
    语言识别-》分词-》获取时间轴-》切割音频
    你是想做伪造音频的视频吧?
    loliordie
        6
    loliordie  
       2020-11-12 16:11:48 +08:00
    aws 和 google 有语音识别的开源 API, 可以去了解一下.

    我使用过 aws 家的, 识别率非常高.
    shintendo
        7
    shintendo  
       2020-11-12 16:26:02 +08:00
    @takemeaway 我猜是做鬼畜素材
    Elissa
        8
    Elissa  
       2020-11-12 16:33:12 +08:00 via Android
    猜测鬼畜音源+1
    xuanbg
        9
    xuanbg  
       2020-11-12 16:43:23 +08:00
    text to voice ?
    QuinceyWu
        10
    QuinceyWu  
       2020-11-12 16:50:06 +08:00
    自己剪把 2333
    h4wklee
        11
    h4wklee  
       2020-11-12 16:52:09 +08:00






    LinSP
        12
    LinSP  
       2020-11-12 17:06:58 +08:00
    用语音识别 API 获取词时间戳,然后根据时间戳自己去分下,一般的 API 都有这个功能
    jones2000
        13
    jones2000  
       2020-11-12 23:08:47 +08:00
    语音转文本, 然后用语音一个一个单词念。
    saulshao
        14
    saulshao  
       2020-11-13 08:37:08 +08:00
    首先是语音识别,然后 nlp
    user8341
        15
    user8341  
       2021-01-05 02:47:06 +08:00
    这个 idea 不错。做出来就是一个 youglish.com
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   2770 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 25ms · UTC 12:00 · PVG 20:00 · LAX 04:00 · JFK 07:00
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.