论文部分内容阅读
随着人工智能技术进入实用化阶段,语音成为很多应用场景的入口,为了让设备能更好地参与语音交互,需要利用麦克风阵列对声源进行定位。实际环境中的噪声和混响会严重影响声源定位系统的性能,传统方法通过增加麦克风数量、加大阵列尺寸、提高采样频率等改善硬件条件的方式来提升系统的抗噪和抗混响能力,这种做法既增加了系统的复杂度,又提高了设备的成本。在智能语音交互应用中,出于对产品成本和体积的考虑,麦克风数量和阵列尺寸受到很大的限制,在噪声和混响的干扰下,传统声源定位算法的性能会急剧下降。本文提出了一种基于深度学习的声源定位算法,通过模型训练实现声源方位的分类,对于改善语音交互产品的声源定位性能具有实际应用价值。本文首先介绍了三种传统声源定位算法:基于时延估计的声源定位、基于可控波束形成的声源定位、基于高分辨率谱估计的声源定位。根据各种算法的特点和局限性,选择时延估计方法用于深度学习特征提取。其次,论文阐述了深度学习的相关理论和实现算法,并分析了实际环境中声源的空间分布与麦克风阵列信号之间的关系。在理论分析的基础上,从声源方位分类的角度,提出了基于深度学习的声源定位算法。再次,本文引入了一种基于反射对称性原理的Image算法用于模拟室内特定声学通道的房间冲激响应,并在全空间随机生成大量麦克风阵列信号训练数据。最后,采用TensorFlow搭建全连接神经网络模型,分别选择四种不同的时域特征,对深度学习分类模型进行训练,利用训练好的分类器对麦克风阵列信号进行分类,从而确定声源的方位。为了评估深度学习方法的性能,本文以传统时延估计算法为参照,在49种环境条件下进行对比实验。实验结果表明:在综合环境条件下,深度学习方法在双麦克风小型阵列上的定位准确率相对传统方法有20%-38%的提升,从而验证了本文提出的基于深度学习的声源定位方法可以获得更高的定位准确率和环境鲁棒性。