基于声学和文本特征的多模态情感识别|||北京沫之东生物技术有限公司

5 次围观

在语音模态中，利用OpenSMILE工具箱可以从语音信号中提取浅层声学特征，通过Transformer Encoder网络从浅层声学特征中挖掘深层特征，并将深浅层特征融合，从而获取更丰富的情感表征。在文本模态中，考虑到停顿因素与情感之间的关联性，将语音和文本对齐以获得说话停顿信息，采用停顿编码的方式将停顿信息添加到转录文本中，再通过DC-BERT模型获取话语级文本特征。将获得的声学与文本特征进行融合，利用基于注意力机制的双向长短时记忆（Bi-directional long short-term memory-attention，BiLSTM-ATT）神经网络进行情感分类。最后，本文对比了3种不同注意力机制融入BiLSTM网络后对情感识别的影响，即局部注意力、自注意力和多头自注意力，发现局部注意力的效果最优。实验表明，本文提出的方法在IEMOCAP数据集上的4类情感分类的加权准确率达到了78.7%，优于基线系统。

来源出处

基于声学和文本特征的多模态情感识别 http://sjcj.nuaa.edu.cn/ch/reader/view_abstract.aspx?file_no=202206016&flag=1