- 1次围观
近年来,歌唱合成技术快速发展,基于变分推理和流模型的端到端歌唱合成(VISinger)成为主流,但其在效果上和真人仍有一定差距,主要体现在合成歌声中的音高听感不连续、颤音合成不佳及发音不稳定等。为此,本文针对性地提出了一系列改进方法:针对基频稳定性问题,提出在解码器中增加激励模块,将基频信息以激励信号的形式显式提供给解码器;针对颤音合成不自然问题,增加颤音预测模块,通过流式模型和变分数据增强,显式对歌声中的颤音进行建模;进一步在先验网络中增加ReZero策略。实验结果显示,增加激励信号能提升合成基频的稳定性,颤音建模对颤音的恢复有显著提升作用,ReZero策略对训练速度和发音稳定性有一定提升。主观测听中,本文提出的模型在歌唱合成自然度上相比VISinger有显著优势,平均意见分(Mean opinion score, MOS)达到3.95,对比两阶段建模方法DiffSinger+HiFiGAN也有明显优势,证明了本文所提方法的有效性。
来源出处
一种融合激励和颤音建模的端到端歌唱合成方法
http://sjcj.nuaa.edu.cn/sjcjycl/article/abstract/202402013
相关内容
发布日期
08/04/2020 - 01:35
发布日期
06/17/2022 - 10:21
发布日期
06/22/2024 - 17:53
发布日期
01/10/2022 - 19:32
发布日期
09/21/2023 - 22:52
发布日期
02/10/2022 - 15:24
发布日期
01/10/2022 - 19:31
发布日期
08/04/2020 - 01:35
发布日期
10/23/2024 - 19:39
发布日期
09/02/2024 - 19:26
发布日期
08/04/2020 - 01:35
发布日期
08/04/2020 - 01:35
发布日期
06/07/2024 - 17:46
发布日期
08/20/2024 - 19:21
发布日期
10/31/2021 - 01:12
发布日期
04/18/2024 - 09:29
发布日期
08/04/2020 - 01:35
发布日期
09/18/2024 - 19:30
发布日期
09/02/2024 - 19:26
发布日期
07/02/2023 - 18:27