基于声学和文本特征的多模态情感识别

root 提交于 周五, 06/17/2022 - 10:21
在语音模态中,利用OpenSMILE工具箱可以从语音信号中提取浅层声学特征,通过Transformer Encoder网络从浅层声学特征中挖掘深层特征,并将深浅层特征融合,从而获取更丰富的情感表征。在文本模态中,考虑到停顿因素与情感之间的关联性,将语音和文本对齐以获得说话停顿信息,采用停顿编码的方式将停顿信息添加到转录文本中,再通过DC-BERT模型获取话语级文本特征。将获得的声学与文本特征进行融合,利用基于注意力机制的双向长短时记忆(Bi-directional long short-term memory-attention,BiLSTM-ATT)神经网络进行情感分类。最后,本文对比了3种不同注意力机制融入BiLSTM网络后对情感识别的影响,即局部注意力、自注意力和多头自注意力,发现局部注意力的效果最优。实验表明,本文提出的方法在IEMOCAP数据集上的4类情感分类的加权准确率达到了78.7%,优于基线系统。

相关内容

发布日期 06/03/2024 - 17:45
发布日期 06/17/2022 - 10:21
发布日期 04/26/2024 - 09:35
发布日期 06/17/2022 - 10:21
发布日期 06/17/2022 - 10:21
发布日期 05/06/2024 - 09:39
发布日期 06/17/2022 - 10:21
发布日期 06/17/2022 - 10:21
发布日期 11/18/2023 - 00:06