基于无监督预训练技术的wav2vec 2.0在许多低资源语种上获得了良好的性能,成为研究的热点。本文在预训练模型的基础上进行越南语连续语音识别。将语音学信息引入到基于链接时序分类代价函数(Connectionist temporal classification,CTC)的声学建模中,选取音素与含位置信息的音素作为基础单元。为了平衡建模单元数目以及模型的精细程度,采用字节对编码(Byte-pair encoding,BPE)算法生成音素子词,将上下文信息结合到声学建模过程。实验在美国NIST的BABEL任务低资源的越南语开发集上进行,所提算法相对wav2vec 2.0基线系统有明显改进,识别词错误率由37.3%降低到29.4%。
来源出处
基于预训练与音素字节对编码的越南语识别
http://sjcj.nuaa.edu.cn/ch/reader/view_abstract.aspx?file_no=202301008&flag=1
相关内容
发布日期
06/17/2022 - 10:21
发布日期
06/17/2022 - 10:21
发布日期
06/08/2024 - 17:47
发布日期
06/17/2022 - 10:21
发布日期
07/12/2024 - 17:58
发布日期
01/01/1970 - 08:00
发布日期
06/17/2022 - 10:21
发布日期
09/21/2023 - 22:52
发布日期
01/21/2024 - 12:12
发布日期
06/17/2022 - 10:21
发布日期
09/10/2023 - 22:37
发布日期
08/04/2020 - 19:02
发布日期
01/10/2022 - 19:32
发布日期
03/19/2024 - 09:13
发布日期
07/23/2023 - 21:46
发布日期
08/04/2020 - 01:35
发布日期
08/04/2020 - 01:35
发布日期
01/10/2022 - 19:32
发布日期
03/19/2024 - 09:13
发布日期
08/04/2020 - 01:35