基于多任务学习的语音情感识别|||北京沫之东生物技术有限公司

基于多任务学习的语音情感识别

3 次围观

在近期的语音情感识别研究中，研究人员尝试利用深度学习模型从语音信号中识别情感。然而，传统基于单任务学习的模型对语音的声学情感信息关注度不足，导致情感识别的准确率较低。鉴于此，本文提出了一种基于多任务学习、端到端的语音情感识别网络，以挖掘语音中的声学情感，提升情感识别的准确率。为避免采用频域特征造成的信息损失，本文利用基于时域信号的Wav2vec2.0自监督网络作为模型的主干网络，提取语音的声学特征和语义特征，并利用注意力机制将两类特征进行融合作为自监督特征。为了充分利用语音中的声学情感信息，使用与情感有关的音素识别作为辅助任务，通过多任务学习挖掘自监督特征中的声学情感。在公开数据集IEMOCAP上的实验结果表明，本文提出的多任务学习模型实现了76.0%的加权准确率和76.9%的非加权准确率，相比传统单任务学习模型性能得到了明显提升。同时，消融实验验证了辅助任务和自监督网络微调策略的有效性。

来源出处

基于多任务学习的语音情感识别 http://sjcj.nuaa.edu.cn/sjcjycl/article/abstract/202402015