论文部分内容阅读
文本无关的说话人确认技术旨在从语音中提取说话人的个性信息从而完成说话人身份的验证。使用便捷以及非接触式交互等独特的优势使其得到越来越广泛的应用,并成为当今生物特征识别领域的研究热点。近年来,说话人确认技术逐渐走向实用,但由于实际环境的复杂性,面临着传输信道的多样化、背景噪声污染等问题,说话人确认技术性能难以提升。本论文主要是研究环境失配下的说话人确认,从失配补偿的角度出发,探讨了全局差异空间方法以及概率线性鉴别分析方法,并对其存在的问题提出改进方案。本论文主要的研究工作有:首先,探讨了美尔频率倒谱参数的提取过程,介绍了高斯混合模型(Gaussian Mixture Model, GMM),对其原理以及训练算法进行详细的阐述,并深入分析了GMM用于说话人确认的优缺点,构建了基于GMM-UBM框架的说话人确认系统,并通过实验分析GMM-UBM系统的性能。接着,深入研究说话人确认失配补偿方法。利用因子分析的方法,从高斯均值超矢量提取出具有区分性的身份矢量I-Vector,构建了基于I-Vector的说话人确认系统。给出线性鉴别分析、类内协方差规整等信道补偿方法对I-Vector系统进行改进,实验结果表明这些方法可以有效地改善信道失配对说话人确认系统的负面影响。最后,深入研究概率线性鉴别分析(Probabilistic Linear Discriminant Analysis, PLDA)方法对说话人以及干扰信息的建模能力,简化高斯概率线性鉴别分析(Gaussian PLDA, GPLDA)以及其得分公式,构建基于高斯概率线性鉴别分析的说话人确认系统,研究其对I-Vector矢量的补偿能力。此外,针对训练语音与测试语音时长失配的情况,提出估计时长差异信息的方法,并将此时长差异信息融入PLDA系统,实验表明,该方法在一定程度上提高系统的性能。