- 1次围观
近年来,歌唱合成技术快速发展,基于变分推理和流模型的端到端歌唱合成(VISinger)成为主流,但其在效果上和真人仍有一定差距,主要体现在合成歌声中的音高听感不连续、颤音合成不佳及发音不稳定等。为此,本文针对性地提出了一系列改进方法:针对基频稳定性问题,提出在解码器中增加激励模块,将基频信息以激励信号的形式显式提供给解码器;针对颤音合成不自然问题,增加颤音预测模块,通过流式模型和变分数据增强,显式对歌声中的颤音进行建模;进一步在先验网络中增加ReZero策略。实验结果显示,增加激励信号能提升合成基频的稳定性,颤音建模对颤音的恢复有显著提升作用,ReZero策略对训练速度和发音稳定性有一定提升。主观测听中,本文提出的模型在歌唱合成自然度上相比VISinger有显著优势,平均意见分(Mean opinion score, MOS)达到3.95,对比两阶段建模方法DiffSinger+HiFiGAN也有明显优势,证明了本文所提方法的有效性。
来源出处
一种融合激励和颤音建模的端到端歌唱合成方法
http://sjcj.nuaa.edu.cn/sjcjycl/article/abstract/202402013
相关内容
发布日期
01/21/2024 - 12:12
发布日期
10/31/2021 - 01:47
发布日期
10/31/2021 - 01:16
发布日期
10/31/2021 - 01:48
发布日期
05/12/2024 - 09:43
发布日期
10/16/2024 - 19:36
发布日期
11/02/2023 - 23:34
发布日期
01/10/2022 - 19:31
发布日期
02/24/2024 - 15:39
发布日期
07/04/2024 - 17:54
发布日期
11/28/2023 - 00:31
发布日期
01/10/2022 - 19:31
发布日期
12/15/2023 - 01:19
发布日期
01/01/1970 - 08:00
发布日期
08/04/2020 - 01:35
发布日期
10/31/2021 - 01:12
发布日期
06/17/2022 - 10:21
发布日期
06/17/2022 - 10:21
发布日期
10/20/2024 - 19:37
发布日期
06/11/2024 - 17:46