论文部分内容阅读
在自然环境中录制的语音信号通常为欠定卷积混合信号,即其包含多种路径下的语音和干扰噪声,且源信号个数大于麦克风的数目。从这种混合信号中分离出所需语音是人们公认的一大难题。盲源分离(blind source separation, BSS)是二十世纪八十年代后期发展起来的一种信号处理技术,目前已在解决欠定卷积混合语音分离问题中显示出自身优势。然而,由于欠定和卷积问题固有的难解性,现有欠定卷积混合语音的分离效果并不理想。其中,有些学者基于信号稀疏性提出了masking方法,但这些方法大多是没有利用先验信息的全盲算法。考虑到很多实际情况中源信号的位置信息已知,本文将探索能利用源信号空间位置信息的半盲BSS方法,以期进一步提升欠定卷积语音分离性能,而且实现感兴趣语音信号的抽取。为此,本文主要做了以下三方面工作:(1)研究了现有基于复向量Hermitian角的时频masking算法,根据特定语音的波达方向(direction of arrival, DOA)信息构建了一个参考向量,进而提出了一种半盲抽取算法。基于仿真和实际语音信号进行的实验结果表明,该半盲抽取算法能以改进的性能抽取感兴趣语音信号。(2)在半盲抽取算法的基础上,通过输出所有掩蔽(mask)实现了全部语音信号的半盲分离。其中,针对相邻频点间存在的语音信号乱序问题,结合相关最大方法改进了频域mask聚类调序算法。仿真和实际语音信号的分离实验结果表明,该半盲分离算法的性能高于原全盲分离算法。(3)针对实际情况中源信号个数可能未知的情况,本文综合多个聚类有效性评价指标改进了各频点源信号数目的估计方法。实验结果表明,该方法能为各频点的Hermitian角确定更佳的聚类个数。