在近期的语音情感识别研究中,研究人员尝试利用深度学习模型从语音信号中识别情感。然而,传统基于单任务学习的模型对语音的声学情感信息关注度不足,导致情感识别的准确率较低。鉴于此,本文提出了一种基于多任务学习、端到端的语音情感识别网络,以挖掘语音中的声学情感,提升情感识别的准确率。为避免采用频域特征造成的信息损失,本文利用基于时域信号的Wav2vec2.0自监督网络作为模型的主干网络,提取语音的声学特征和语义特征,并利用注意力机制将两类特征进行融合作为自监督特征。为了充分利用语音中的声学情感信息,使用与情感有关的音素识别作为辅助任务,通过多任务学习挖掘自监督特征中的声学情感。在公开数据集IEMOCAP上的实验结果表明,本文提出的多任务学习模型实现了76.0%的加权准确率和76.9%的非加权准确率,相比传统单任务学习模型性能得到了明显提升。同时,消融实验验证了辅助任务和自监督网络微调策略的有效性。
来源出处
基于多任务学习的语音情感识别
http://sjcj.nuaa.edu.cn/sjcjycl/article/abstract/202402015
相关内容
发布日期
08/04/2020 - 01:35
发布日期
06/17/2022 - 10:21
发布日期
06/22/2024 - 17:53
发布日期
01/10/2022 - 19:32
发布日期
09/21/2023 - 22:52
发布日期
02/10/2022 - 15:24
发布日期
01/10/2022 - 19:31
发布日期
08/04/2020 - 01:35
发布日期
10/23/2024 - 19:39
发布日期
09/02/2024 - 19:26
发布日期
08/04/2020 - 01:35
发布日期
08/04/2020 - 01:35
发布日期
06/07/2024 - 17:46
发布日期
08/20/2024 - 19:21
发布日期
10/31/2021 - 01:12
发布日期
04/18/2024 - 09:29
发布日期
08/04/2020 - 01:35
发布日期
09/18/2024 - 19:30
发布日期
09/02/2024 - 19:26
发布日期
07/02/2023 - 18:27