1
sanebow 2022-01-27 10:02:32 +08:00 via iPhone
以我对语音识别的粗浅了解,第一步就是先把声音转换为声学模型或者说某种声学表示(非拼音),然后第二步才是根据语言模型去转换成文字。所以看最终需求,估计转拼音不一定是楼主真正需要的
|
2
5bb864e1fc775087 OP 这方面我也是没了解过。我要做的是给一句话, 用户读出来, 然后比对发音是否准确, 而不是比对语音识别后的文字是否相同(被修正后的文字)
|
3
sanebow 2022-01-27 10:18:42 +08:00 via iPhone 1
@5bb864e1fc775087 哦就是很多语言教学软件都在做的那种。建议看一下一些开源中文语音识别项目中间步骤是不是有输出拼音或者某种音标。现成的 API 不知道存不存在
|
4
czfy 2022-01-27 10:20:10 +08:00
这种需求太少见了,看起来只能自己重新训练模型
|
5
sanebow 2022-01-27 10:22:04 +08:00 via iPhone
@5bb864e1fc775087
@sanebow 随便找了个 https://github.com/nl8590687/ASRT_SpeechRecognition 声音模型好像是直接输出汉语拼音的 |
6
5bb864e1fc775087 OP @sanebow #5 这个 GitHub 项目刚才我也看了,确实是先语音转拼音,再拼音转文字。我去入门学习下看看能不能改成我要的程序
|
7
colatea 2022-01-27 13:42:21 +08:00 1
以前做过,自己训练的,只要有打了标签的数据,并且在限定范围内的话,很容易实现,开源的项目很多,但都需要改点内容
|
8
lllllIIIlll 2022-01-27 15:17:26 +08:00 1
可以参考一下 Kaldi 的解码器。 编译 HCLG 时去掉字典( L ),G 语言模型,只用 HC 就可以直接输出拼音(音素)。
|