一种融合激励和颤音建模的端到端歌唱合成方法|||北京沫之东生物技术有限公司

一种融合激励和颤音建模的端到端歌唱合成方法

10 次围观

近年来，歌唱合成技术快速发展，基于变分推理和流模型的端到端歌唱合成（VISinger）成为主流，但其在效果上和真人仍有一定差距，主要体现在合成歌声中的音高听感不连续、颤音合成不佳及发音不稳定等。为此，本文针对性地提出了一系列改进方法：针对基频稳定性问题，提出在解码器中增加激励模块，将基频信息以激励信号的形式显式提供给解码器；针对颤音合成不自然问题，增加颤音预测模块，通过流式模型和变分数据增强，显式对歌声中的颤音进行建模；进一步在先验网络中增加ReZero策略。实验结果显示，增加激励信号能提升合成基频的稳定性，颤音建模对颤音的恢复有显著提升作用，ReZero策略对训练速度和发音稳定性有一定提升。主观测听中，本文提出的模型在歌唱合成自然度上相比VISinger有显著优势，平均意见分（Mean opinion score， MOS）达到3.95，对比两阶段建模方法DiffSinger+HiFiGAN也有明显优势，证明了本文所提方法的有效性。

来源出处

一种融合激励和颤音建模的端到端歌唱合成方法 http://sjcj.nuaa.edu.cn/sjcjycl/article/abstract/202402013