有没有语音转拼音的工具或 API 接口 - V2EX

首页注册登录

V2EX = way to explore

V2EX 是一个关于分享和探索的地方

现在注册

已注册用户请登录

V2EX 提问指南

这是一个创建于 1107 天前的主题，其中的信息可能已经有所发展或是发生改变。

与平常的语音识别,语音转文字不同, 我需要语音识别转出对应发音的拼音和声调

看了腾讯云, 百度云, 阿里云基本只提供语音转文字的接口, 没法满足需求

大伙有没有这方面的工具, 接口或者思路

PS 有人会说"语音转文字, 文字再转拼音", 用这种方式的话, 比如我在音频里读的是"管东", 语音识别结果会修正并返回"广东", 再转拼音就成了 guang dong, 但我实际的发音是 guan dong

8 条回复 • 2022-01-27 15:17:26 +08:00

1

sanebow

2022-01-27 10:02:32 +08:00 via iPhone

以我对语音识别的粗浅了解，第一步就是先把声音转换为声学模型或者说某种声学表示(非拼音)，然后第二步才是根据语言模型去转换成文字。所以看最终需求，估计转拼音不一定是楼主真正需要的

2

5bb864e1fc775087

OP

2022-01-27 10:10:21 +08:00

这方面我也是没了解过。我要做的是给一句话, 用户读出来, 然后比对发音是否准确, 而不是比对语音识别后的文字是否相同(被修正后的文字)

3

sanebow

2022-01-27 10:18:42 +08:00 via iPhone

1

@5bb864e1fc775087 哦就是很多语言教学软件都在做的那种。建议看一下一些开源中文语音识别项目中间步骤是不是有输出拼音或者某种音标。现成的 API 不知道存不存在

4

czfy

2022-01-27 10:20:10 +08:00

这种需求太少见了，看起来只能自己重新训练模型

5

sanebow

2022-01-27 10:22:04 +08:00 via iPhone

@5bb864e1fc775087
@sanebow 随便找了个 https://github.com/nl8590687/ASRT_SpeechRecognition 声音模型好像是直接输出汉语拼音的

6

5bb864e1fc775087

OP

2022-01-27 11:01:06 +08:00

@sanebow #5 这个 GitHub 项目刚才我也看了，确实是先语音转拼音，再拼音转文字。我去入门学习下看看能不能改成我要的程序

7

colatea

2022-01-27 13:42:21 +08:00

1

以前做过,自己训练的,只要有打了标签的数据,并且在限定范围内的话,很容易实现,开源的项目很多,但都需要改点内容

8

lllllIIIlll

2022-01-27 15:17:26 +08:00

1

可以参考一下 Kaldi 的解码器。编译 HCLG 时去掉字典（ L ），G 语言模型，只用 HC 就可以直接输出拼音（音素）。

关于 · 帮助文档 · 博客 · API · FAQ · 实用小工具 · 5584 人在线 最高记录 6679 ·

Select Language

创意工作者们的社区

World is powered by solitude

VERSION: 3.9.8.5 · 37ms · UTC 09:05 · PVG 17:05 · LAX 01:05 · JFK 04:05
Developed with CodeLauncher
♥ Do have faith in what you're doing.