论文部分内容阅读
语音信号处理是现代通信、多媒体技术及人工智能系统等众多领域应用的核心技术之一。人们在获得语音信号的同时,不可避免地会受到环境噪声、房间混响以及其他说话人的话音干扰。语音增强作为前置处理方案是抑制干扰的一种有效途径。采用常规的单传声器技术,虽然可以对噪声进行一定的抑制,但由于可利用的信息仅限于时/频信息,因此,在强混响环境下,或者是存在干扰语音源时,其干扰抑制效果并不理想。利用传声器阵列提供的空域和时/频信息,则有可能较好地解决这些问题。 传声器阵列系统已经广泛应用于视频会议、语音识别、说话人识别、汽车环境语音获取、混响环境声音拾取、声源定位和助听装置等场合和设备中。上述这些应用情况归纳起来,最主要的两大类应用是传声器阵列声源定位和传声器阵列语音增强。传声器阵列语音增强作为传声器阵列技术的重要应用之一,涉及时延估计、语音活动检测和语音增强方法三项关键技术。本文重点研究了这三项关键技术,主要工作如下: (1)研究了互功率谱相位时延估计方法。该方法是基于时延估计问题的理想模型提出的,仅适用于高信噪比和弱混响情况。为了使该方法适用于低信噪比和中度以上混响情况,本文对互功率谱相位时延估计方法的性能进行了分析,找出了低信噪比和中度以上混响时其性能下降的原因,给出了两种改进的加权函数形式,改善了该方法在低信噪比和中度以上混响情况下的时延估计性能。 (2)在混响情况下,研究了自适应特征值分解时延估计方法。本文对该方法的时延估计性能进行了分析,表明该方法仅适用于弱噪声情况。针对这一问题,本文给出一种小波域的自适应特征值分解时延估计方法,并对其收敛性能进行了分析。该方法利用小波变换抑制噪声,在信噪比最高的尺度下,应用自适应特征值分解方法进行时延估计,改善了自适应特征值分解时延估计方法在低信噪比情况下的时延估计性能。 (3)现有的传声器阵列语音活动检测方法大都是基于单路信号的检测技术,即每一路传声器信号利用单路语音活动检测方法分别进行检测,运算量较大。针对这一问题,本文利用传声器阵列中声源信号之间仅存在时间延迟这一特点,通过对增强后的语音信号进行语音活动检测,以该语音活动检测结果为参考,分别平移相应的时间,同时获得了阵列多路信号的语音活动检测结果。针对相关噪声情况,本文给出一种结合独立分量分析的传声器阵列语音活动检测方法;为了将该思路推广到不相关噪声情况,本文给出一种基于噪声类型判别的传声器阵列语音活动检测方法。 (4)针对仅存在噪声的情况,研究了波束形成类传声器阵列语音增强方法。考虑到固定波束形成方法仅适用于抑制不相关噪声,为了使其适用于相关噪声情况,本文给出