- 3 次围观
在语音模态中,利用OpenSMILE工具箱可以从语音信号中提取浅层声学特征,通过Transformer Encoder网络从浅层声学特征中挖掘深层特征,并将深浅层特征融合,从而获取更丰富的情感表征。在文本模态中,考虑到停顿因素与情感之间的关联性,将语音和文本对齐以获得说话停顿信息,采用停顿编码的方式将停顿信息添加到转录文本中,再通过DC-BERT模型获取话语级文本特征。将获得的声学与文本特征进行融合,利用基于注意力机制的双向长短时记忆(Bi-directional long short-term memory-attention,BiLSTM-ATT)神经网络进行情感分类。最后,本文对比了3种不同注意力机制融入BiLSTM网络后对情感识别的影响,即局部注意力、自注意力和多头自注意力,发现局部注意力的效果最优。实验表明,本文提出的方法在IEMOCAP数据集上的4类情感分类的加权准确率达到了78.7%,优于基线系统。
来源出处
相关内容
发布日期
06/03/2024 - 17:45
发布日期
08/07/2023 - 22:01
发布日期
08/04/2020 - 01:35
发布日期
12/09/2023 - 01:01
发布日期
10/31/2021 - 01:12
发布日期
06/17/2022 - 10:21
发布日期
04/26/2024 - 09:35
发布日期
06/17/2022 - 10:21
发布日期
01/10/2022 - 19:32
发布日期
12/07/2023 - 00:57
发布日期
06/17/2022 - 10:21
发布日期
05/06/2024 - 09:39
发布日期
08/04/2020 - 01:35
发布日期
06/17/2022 - 10:21
发布日期
06/17/2022 - 10:21
发布日期
10/31/2021 - 01:12
发布日期
10/11/2023 - 23:06
发布日期
06/17/2022 - 10:21
发布日期
11/18/2023 - 00:06
发布日期
10/31/2021 - 01:48