论文部分内容阅读
声源的方位信息对诸多智能音频系统具有重要价值。例如,智能摄像机可根据声源方位自动转向,基于麦克风阵列的语音增强系统可设计指向语音方位的空间滤波器,无人驾驶汽车可根据说话人方位确定语音指令的发送者,并根据外部声源方位辨识所处交通环境。通常可以利用麦克风阵列估计目标声源方位。然而,现实环境中的噪声给鲁棒声源定位带来了巨大挑战。 本论文在认真总结现有声源定位方法的基础上,深入分析现实环境中的噪声特点,从变换域分析的角度出发,提出了一系列在不同变换域上噪声鲁棒的声源定位理论和方法。此外,针对无人驾驶汽车的特定应用场景,设计制作了车外声源定位软硬件原型系统,并进行了若干实验验证。本文的主要工作和创新点如下: (1)针对低信噪比无向噪声条件下的声源定位问题,在听觉谱域,提出了基于听觉谱子带加权的声源定位算法。由于目标音频和背景噪声具有不同的频率分布特性,目标音频的各个频带受噪声干扰的程度不尽相同。假设背景噪声的频带分布较为平坦,那么能量较大的频带被认为包含更多的目标音频。因此在各个子频带上分别计算声源定位结果,并提高目标音频子带计算结果的权重,可以降低背景噪声的干扰。实验表明,该算法取得了比传统算法更好的性能。 (2)针对强方向性干扰声源存在时声源定位问题,在时频域,提出了融合历史信息和短时频谱相关性的声源定位算法。声源定位是逐帧持续过程,历史定位信息为提高声源定位的性能提供了可能性。参考历史定位结果,通过“后波束形成”可以得到抑制干扰源、增强目标音频的信号。进而,利用语音的短时频谱相关性,计算得到用于估计当前帧声源位置的时频单元权重。最后,提出了一种基于频域加权空间相关矩阵的代价函数,以利用该时频单元权重进行干扰源鲁棒的声源定位。实验结果表明,在强干扰源存在时,该算法可以取得比传统算法更加稳定和精确的定位结果。 (3)同时针对无向噪声和有向干扰源下的声源定位问题,在双谱域,提出了基于双谱加权空间相关矩阵的声源定位算法。双谱是一种高阶统计量,由于高斯信号的高阶统计量为零,该方法理论上消除了高斯噪声的影响。此外,利用通道间双谱相位差的冗余性,可以提高宽带非高斯噪声环境下的声源定位性能。本方法将双谱相位差集成到双谱加权空间相关矩阵的数学框架内,通过决策导向的方法,计算双谱权重,以加强语音主导双谱单元的作用。最终通过对双谱加权空间相关矩阵特征值分析,找到目标声源方位。在不同噪声环境下的实验结果表明,该算法明显改善了强噪声环境下声源定位的精度,并取得了更低的均方误差。 (4)无人车车外声源定位原型系统的制作和实验验证。针对交通环境下无人车对车外警笛声源的定位问题,本工作设计并制作了基于USB2.0和FPGA框架的麦克风阵列硬件系统,并编制了相应的下位机与上位机软件程序。此外,采用该原型系统采集了交通环境警报声的实际数据,并基于所提出的频域加权空间相关矩阵,利用警报声的长时时频相关性,设计频带权重,最终估计声源方位。实际数据下的测试结果表明,所采用的算法能够根据原型系统的实测数据,有效定位声源方位,在噪声环境下比传统算法表现出更好的性能。