基于多级残差网络的环境声音分类方法

root 提交于 周日, 10/31/2021 - 01:53
为了对环境声音进行更好的识别和分类,提出了基于多级残差网络(Multilevel residual network, Mul-EnvResNet)的环境声音分类方法。对声音事件进行时标和基频压扩之后,提取其梅尔频率倒谱系数(Mel-frequency cepstral coefficients, MFCCs),以及它们的差分作为特征参数送入Mul-EnvResNet对声音事件进行分类。实验数据集采用ESC-50,将Mul-EnvResNet模型与端到端的卷积神经网络(EnvNet)、基于注意力机制的循环神经网络(Attention based convolutional recurrent neural network, ACRNN),以及受限卷积玻尔兹曼机的无监督滤波器组模型(Convolutional restricted Boltzmann machine, ConvRBM)进行对比实验。实验结果表明, Mul-EnvResNet取得了89.32%的最佳分类准确率,相较上述3种模型在分类准确率上分别有18.32%、3.22%、2.82%的提升,相较于其他的声音分类方法也均有明显的优势。

相关内容

发布日期 01/10/2022 - 19:31
发布日期 08/23/2024 - 19:21
发布日期 06/17/2022 - 10:21
发布日期 06/17/2022 - 10:21
发布日期 08/04/2020 - 01:35
发布日期 06/17/2022 - 10:21
发布日期 10/12/2023 - 23:10