论文部分内容阅读
声源定位及分离技术是当前信号处理研究领域的组成部分,有着广泛的应用领域和应用需求。在拟人机器人、军事领域、语音通信、目标追踪、说话人识别软件的前端预处理、强噪声环境下的声音获取、大型场所的会议记录、助听装置等方面都有广泛的应用前景。
针对目前声源定位与分离的研究现状,研究了人耳听觉系统的生理学与心理学特点,进而建立了人耳听觉系统声源定位与语音分离模型。在声源定位研究中,通过对信号上升过零点间隔统计特征的研究,得到复合信号与其频率分量具有相同统计特征的结论。根据这一结论,提出了用上升过零点模拟听神经发放行为的假设,引入了根据通道问过零点时间间隔求取声音时延的算法,并解决了时间差在高频带的混淆问题。相比互相关算法,该算法的计算量更低、抗噪声能力更强、多声源定位更准确。语音的分离是基于声源定位基础上的,该算法将上升过零点处的信号幅值作为感知要素,利用声源定位的时延信息将其归为不同的声源,然后对每个频带的特征值进行时间缩放并叠加以重构声音信号。该算法模拟了人耳对声音信息特征提取、归类和重构的过程。语音分离的仿真实验验证了该算法可以将语音信号从噪声背景中提取出来,并可以将混叠的多个语音分离。
分析了真实的声音环境,针对真实环境中面对的噪声、混响以及连续性等问题,采用耳蜗滤波、信号端点检测等方法解决。搭建了实时的声音采集与定位系统。实验结果表明,该算法在低信噪比、多声源情况下取得较好效果。