基于预训练与音素字节对编码的越南语识别|||北京沫之东生物技术有限公司

基于预训练与音素字节对编码的越南语识别

3 次围观

基于无监督预训练技术的wav2vec 2.0在许多低资源语种上获得了良好的性能，成为研究的热点。本文在预训练模型的基础上进行越南语连续语音识别。将语音学信息引入到基于链接时序分类代价函数（Connectionist temporal classification，CTC）的声学建模中，选取音素与含位置信息的音素作为基础单元。为了平衡建模单元数目以及模型的精细程度，采用字节对编码（Byte-pair encoding，BPE）算法生成音素子词，将上下文信息结合到声学建模过程。实验在美国NIST的BABEL任务低资源的越南语开发集上进行，所提算法相对wav2vec 2.0基线系统有明显改进，识别词错误率由37.3%降低到29.4%。

来源出处

基于预训练与音素字节对编码的越南语识别 http://sjcj.nuaa.edu.cn/ch/reader/view_abstract.aspx?file_no=202301008&flag=1