论文部分内容阅读
语音增强算法在助听器,蓝牙耳机等听力设备和手机通讯等设备中一直有着很重要的应用价值。随着人工智能技术的发展,新一代的智能设备,如智能音箱,智能耳机等设备的兴起使得远场语音交互技术再次得到广泛的关注,在远场语音交互中,一个关键的技术就是语音增强技术。远场相较于近场来说信噪比往往更低,这也意味着远场语音交互技术相较于近场的语音增强有着更多的挑战,这些挑战主要包括噪声的干扰,混响的干扰以及多说话人的干扰。而复杂的噪声环境下的语音增强技术无论是对于入耳的语音可懂度还是智能语音交互设备的识别率都有着重要的研究意义。 为了更好的对噪声进行抑制,麦克风阵列成为一种主流的方案,而波束形成技术由于具有计算简单,目标语音失真小等特点,成为远场语音交互中的一种主流的技术方案。双麦克风阵列由于具有安装简单,成本低等特点,也成为一种主流的选择。随着Google Home的双麦克风智能音箱的推出,国内外针对双麦克风的语音增强算法展开了广泛的研究,但是由于麦克风数目较小,传统的固定波束形成算法在双麦克风上效果有限。随着深度学习的快速发展,基于深度神经网络的语音增强算法也得到广泛研究,而另一类基于无监督聚类与多通道波束形成结合的方法也取得了显著的效果。尽管近年来众多学者提出一系列的语音混响抑制,语音降噪和语音分离方案,但是在实际环境下算法的鲁棒性还有待提升。为此,本文分别利用传统的信号处理知识和机器学习,深度学习新方法针对实际环境下的双耳语音增强算法展开研究。主要研究内容和创新点包括: 1.针对传统的优先效应模型的缺点,提出一种简单鲁棒的时延差估计算法,用于在噪声和混响环境下进行时延差估计。同时对混响抑制算法中的直达声与晚期混响的比值进行研究,最后利用估计的比值进行混响增益函数的计算。 2.提出一种基于独立向量分析的目标语音协方差矩阵估计算法,现有的基于深度学习的Mask估计和基于聚类的Mask估计算法中对噪声有着不错的效果,但是却不能解决语音分离任务,为此本文在分别利用DNN估计Mask结合IVA用于干扰加噪声协方差矩阵的获取。最后与多通道维纳滤波器结合,得到最后的增益函数。 3.针对欠定情况下的语音分离,首先针对目标方位已知的条件下提出一种双耳语音增强算法。随后针对噪声干扰下的多语音分离算法,提出一种降噪与分离系统联合的神经网络结构,该算法不需要声源数目和声源方位等先验信息,能够在噪声干扰的条件下完成多语音分离任务。