基于预训练与音素字节对编码的越南语识别

root 提交于 周五, 06/17/2022 - 10:21
基于无监督预训练技术的wav2vec 2.0在许多低资源语种上获得了良好的性能,成为研究的热点。本文在预训练模型的基础上进行越南语连续语音识别。将语音学信息引入到基于链接时序分类代价函数(Connectionist temporal classification,CTC)的声学建模中,选取音素与含位置信息的音素作为基础单元。为了平衡建模单元数目以及模型的精细程度,采用字节对编码(Byte-pair encoding,BPE)算法生成音素子词,将上下文信息结合到声学建模过程。实验在美国NIST的BABEL任务低资源的越南语开发集上进行,所提算法相对wav2vec 2.0基线系统有明显改进,识别词错误率由37.3%降低到29.4%。

相关内容

发布日期 01/10/2022 - 19:31
发布日期 08/23/2024 - 19:21
发布日期 06/17/2022 - 10:21
发布日期 06/17/2022 - 10:21
发布日期 08/04/2020 - 01:35
发布日期 06/17/2022 - 10:21
发布日期 10/12/2023 - 23:10