- 4 次围观
针对语音情感识别任务中说话者的差异性,计算谱特征的一阶差分、二阶差分组成三通道的特征集输入二维网络。结合卷积神经网络、双向长短时记忆网络以及注意力机制建立基线模型,引入深度残差收缩网络分配二维网络中的通道权重,进一步提高语音情感识别的精度。为提升模型的学习效果,采取特征层融合(特征向量并行和特征向量拼接两种方式)和决策层融合(平均得分和最大得分两种方式)等不同信息融合机制。结果表明:(1)特征层融合中的特征向量并行策略是更有效的方式;(2)本文提出模型在CASIA和EMO-DB数据库下分别取得了84.93%和86.83%的未加权平均召回率(Unweighted average recall, UAR),相较于基线模型,引入深度残差收缩网络后的模型在CASIA和EMO-DB数据库上的未加权召回率分别提高5.3%和6.2%。
来源出处
基于深度残差收缩网络多特征融合语音情感识别
http://sjcj.nuaa.edu.cn/ch/reader/view_abstract.aspx?file_no=202203005&flag=1
相关内容
发布日期
06/17/2022 - 10:21
发布日期
06/17/2022 - 10:21
发布日期
06/08/2024 - 17:47
发布日期
06/17/2022 - 10:21
发布日期
07/12/2024 - 17:58
发布日期
01/01/1970 - 08:00
发布日期
06/17/2022 - 10:21
发布日期
09/21/2023 - 22:52
发布日期
01/21/2024 - 12:12
发布日期
06/17/2022 - 10:21
发布日期
09/10/2023 - 22:37
发布日期
08/04/2020 - 19:02
发布日期
01/10/2022 - 19:32
发布日期
03/19/2024 - 09:13
发布日期
07/23/2023 - 21:46
发布日期
08/04/2020 - 01:35
发布日期
08/04/2020 - 01:35
发布日期
01/10/2022 - 19:32
发布日期
03/19/2024 - 09:13
发布日期
08/04/2020 - 01:35