基于自注意力机制的音频对抗样本生成方法|||北京沫之东生物技术有限公司

基于自注意力机制的音频对抗样本生成方法

7 次围观

随着个人语音数据在网络上的传播以及自动说话人识别算法的发展，个人的声纹特征面对着泄露的风险。音频对抗样本可以在人耳主观听觉不变的前提下，使得自动说话人识别算法失效，从而保护个人的声纹特征。本文在典型的音频对抗样本生成算法FoolHD模型的基础上引入了自注意力机制来改进对抗样本生成，该方法称为FoolHD-MHSA。首先，使用卷积神经网络作为编码器来提取输入音频频谱的对抗扰动谱图；然后利用自注意力机制从全局角度提取扰动谱不同部分特征的关联特征，同时将网络聚焦到扰动谱中的关键信息、抑制无用信息；最后，使用解码器将处理后的扰动谱隐写到输入频谱中得到对抗样本频谱。实验结果表明，FoolHD-MHSA方法生成的对抗样本相比FoolHD方法有着更高的攻击成功率和平均客观语音质量评估（Perceptual evaluation of speech quality，PESQ）得分。

来源出处

基于自注意力机制的音频对抗样本生成方法 http://sjcj.nuaa.edu.cn/sjcjycl/article/abstract/202402014