一种融合激励和颤音建模的端到端歌唱合成方法

root 提交于 周二, 03/19/2024 - 09:13
近年来,歌唱合成技术快速发展,基于变分推理和流模型的端到端歌唱合成(VISinger)成为主流,但其在效果上和真人仍有一定差距,主要体现在合成歌声中的音高听感不连续、颤音合成不佳及发音不稳定等。为此,本文针对性地提出了一系列改进方法:针对基频稳定性问题,提出在解码器中增加激励模块,将基频信息以激励信号的形式显式提供给解码器;针对颤音合成不自然问题,增加颤音预测模块,通过流式模型和变分数据增强,显式对歌声中的颤音进行建模;进一步在先验网络中增加ReZero策略。实验结果显示,增加激励信号能提升合成基频的稳定性,颤音建模对颤音的恢复有显著提升作用,ReZero策略对训练速度和发音稳定性有一定提升。主观测听中,本文提出的模型在歌唱合成自然度上相比VISinger有显著优势,平均意见分(Mean opinion score, MOS)达到3.95,对比两阶段建模方法DiffSinger+HiFiGAN也有明显优势,证明了本文所提方法的有效性。

相关内容

发布日期 01/21/2024 - 12:12
发布日期 05/12/2024 - 09:43
发布日期 02/24/2024 - 15:39
发布日期 07/04/2024 - 17:54
发布日期 08/04/2020 - 01:35
发布日期 10/31/2021 - 01:12
发布日期 06/17/2022 - 10:21
发布日期 06/11/2024 - 17:46