论文部分内容阅读
说话人识别(即声纹识别)技术,就是根据说话声音对说话人进行身份认证。在国家信息安全方面说话人识别技术一直有着重要的作用,随着通信以及互联网技术的发展,说话人识别技术在线上支付和多媒体信息处理方面也开始得到应用。 在NIST说话人识别评测中,测试集语音均是在可控的条件下收集的,可以保证语音有较高的信噪比和较长的持续时长。而且,由于NIST说话人识别评测已经举办多届,这期间积累了大量有监督的与测试数据信道匹配的系统开发数据。因此,当前说话人识别技术在NIST说话人识别评测中能取得较好的识别效果。 然而,当前处理在实际不受控制的环境中获取的语音信号的需求正在增加。不受控制的语音收集环境不仅给语音增加了更多的变化性因素,如噪声、混响、语音持续时间和说话人的情绪状态等,而且也使得我们很难提前准备与测试语音信道匹配的系统开发数据,这些都给说话人识别系统带来了新的挑战。 在实际应用中,如何提高说话人识别系统在含噪语音、短时语音以及系统开发数据与测试数据信道不匹配条件下的性能,是当前说话人识别领域的研究热点也是本文的研究重点。主要研究工作及创新点包括: 1.研究噪声环境下说话人识别,并提出特征修复技术。噪声混入到语音信号中,会“污染”语音信号的频谱图,这样会“损坏”基于短时谱的声学特征,从而影响基于这些声学特征的说话人识别系统的识别性能。之前对于这个问题的解决办法主要有:采用语音增强等技术对加噪语音进行去噪,提取对噪声更鲁棒的声学特征,采用与噪声语音加噪特性相似的数据来进行系统开发。本文提出了特征修复技术,对被噪声“损坏”的声学特征进行修复,使其恢复到未被噪声“损坏”时的样子,从而消除噪声的影响。 2.研究跨信道说话人识别,并提出跨域差异补偿技术。在实际应用中,当系统开发集数据与测试集信道不匹配时,说话人识别系统性能会急剧下降。当拥有一批与测试集信道匹配的自适应数据可利用时,目前有很多已经发表的技术来解决这个问题,归纳起来主要包括模型自适应类方法和信道补偿类方法。本文中提出了一种信道差异补偿方法:跨域差异补偿技术。该方法不是尝试消除语音表征向量中的信道信息,而是补偿测试集与开发集之间信道特性的差异,消除它们之间的信道不匹配性。另外,本文也研究了在没有信道自适应数据,但系统开发集数据来自多种信道时的跨信道说话人识别技术,本文提出的跨域差异补偿技术稍作扩展就可以在这种情况下提高系统的鲁棒性。 3.研究短时语音说话人识别,并提出特征层总变化因子分析技术。总变化因子是当前主流的语音表征向量,在NIST说话人识别评测中取得了较好性能,但是当测试语音持续时长很短时,基于总变化因子的说话人识别系统性能会急剧下降。一些研究者认为这是由于总变化因子中包含的与时长相关的分量导致的,所以他们提出了一些对总变化因子的时长变化性进行补偿的技术。另外有一些研究者认为,短时语音的总变化因子相对长时语音的总变化因子估计值的不确定性更大,基于这样的假设他们提出了利用总变化因子不确定性的概率线性判别式分析模型。在本文中,认为传统的总变化因子模型是对语音特征的高斯统计量来进行因子分析,提取总变化因子时需要将语音的特征向量在一个高斯混合模型上提取高斯统计量,这个过程中会损失一部分特征中的说话人信息。当然这样的损失是很小的,对于长时语音完全可以忽略,但是短时语音中的说话人信息量本就不足,这样的损失就会带来严重的影响。基于这样的假设,本文提出了特征层总变化因子分析技术,直接从特征中提取与说话人和信道相关的总变化因子。