多说话人分离与目标说话人提取的研究现状与展望|||北京沫之东生物技术有限公司

多说话人分离与目标说话人提取的研究现状与展望

11 次围观

语音分离作为语音信号处理领域的前沿技术，具有重要的研究价值和广阔的应用前景。通常，麦克风拾取的信号包含有多个说话人的语音、噪声和混响。为了提升用户的听觉体验以及后端设备的处理性能，需要对混合信号进行语音分离。语音分离起源于著名的鸡尾酒会问题，旨在从混合信号中分离出说话人的语音信号。近年来，研究人员提出了大量的语音分离方法，显著提升了分离性能。本文对这些语音分离方法进行了系统的归纳和总结。首先，根据目标说话人的辅助信息利用与否，将语音分离方法分为两大类，即多说话人分离与目标说话人提取；其次，从传统到基于深度学习的角度，分别对多说话人分离和目标说话人提取两类方法进行详细介绍；最后，讨论了当前语音分离领域面临的一些挑战，并对未来的研究方向进行展望。

来源出处

多说话人分离与目标说话人提取的研究现状与展望 http://sjcj.nuaa.edu.cn/sjcjycl/article/abstract/202405002