多尺度富有表现力的汉语语音合成|||北京沫之东生物技术有限公司

多尺度富有表现力的汉语语音合成

2 次围观

常见的增强合成语音表现力方法通常是将参考音频编码为固定维度的韵律嵌入，与文本信息一起输入语音合成模型的解码器，从而向语音合成模型中引入变化的韵律信息，但这种方法仅提取了音频整体级别的韵律信息，忽略了字或音素级别的细粒度韵律信息，导致合成语音依然存在部分字词发音不自然、音调语速平缓的现象。针对这些问题，本文提出一种基于Tacotron2语音合成模型的多尺度富有表现力的汉语语音合成方法。该方法利用基于变分自编码器的多尺度韵律编码网络，提取参考音频整体级别的韵律信息和音素级别的音高信息，然后将其与文本信息一起输入语音合成模型的解码器。此外，在训练过程中通过最小化韵律嵌入与音高嵌入之间的互信息，消除不同特征表示之间的相互关联，分离不同特征表示。实验结果表明，该方法与单一尺度的增强表现力语音合成方法相比，听力主观平均意见得分提高了约2%，基频F₀帧错误率降低了约14%，该方法可以生成更加自然且富有表现力的语音。

来源出处

多尺度富有表现力的汉语语音合成 http://sjcj.nuaa.edu.cn/sjcjycl/article/abstract/202306019