论文部分内容阅读
真实环境中的自动说话人识别是一项非常有挑战性的任务。系统的性能会受到信道分布、背景噪声和回响干扰等影响。为了尝试解决这些问题,本文对说话人识别领域使用的一些因子分析关键技术进行了研究,目的是在大量数据训练的基础上提高说话人识别系统在这些不利影响下的鲁棒性。 高斯混合模型.通用背景模型系统中,说话人的声学特征可以被投影到高维空间上,成为高斯超向量。在联合因子分析的思路下提出的总变化因子分析技术,可以将高斯超向量进行压缩投影,使其变成一种能够表征说话人身份的低维因子:总变化因子。总变化因子含有丰富的说话人信息,可以用来描述一个说话人的特征。近年自动说话人识别的一个主要方向便是寻找对总变化因子的建模方法。 在不断尝试对总变化因子进行建模的过程中,高斯概率线性判别分析首先取得了巨大的成功。然而总变化因子并不符合高斯分布。从统计建模的角度来讲,需要对高斯概率线性判别分析的模型假设进行修正。后提出的重尾概率线性判别分析模型将高斯概率线性判别分析模型中的各因子假设修正为符合t分布。由于t分布是重尾分布,在统计建模角度来讲更适合描述总变化因子。 在重尾概率线性判别分析的启发下,将高斯概率线性判别分析模型中的隐藏因子假设修正为Laplace分布,我们提出了稀疏概率线性判别分析模型。由于Laplace分布也是重尾分布,所以稀疏概率线性判别分析拥有重尾概率线性判别分析的优点,比高斯概率线性判别分析模型更为鲁棒。根据稀疏表示理论,模型假设中并不直接使用Laplace分布,而是一个跟它足够相近的变化参数的重尾分布,这个重尾分布的上确界是Laplace分布。从系统在SRE2010上的性能来看,稀疏概率线性判别分析在几种信道测试情况下性能都很好,表现稳定,相对于高斯概率线性判别分析性能提升明显。 结合高斯混合模型的思想,我们将多个单高斯概率线性判别分析通过模型假设结合起来,提出了混合高斯概率线性判别分析。同时由于混合概率线性判别分析的训练数据量相比于混合高斯模型要少得多,基于训练数据量不同的考虑,混合高斯概率线性判别分析模型的假设需要进行一定的鲁棒性考虑,这里的模型假设中将所有混合高斯的方差以及本征音隐藏因子进行共享,在估计时一并计算,从而达到使模型更加鲁棒的效果。从系统在SRE2010上的性能来看,混合高斯概率线性判别分析在几种信道测试情况下性能表现稳定,相对于高斯概率线性判别分析在麦克风电话录音测试集上有明显提高。 最后,我们对多源说话人识别任务进行了一定的探索。首先对概率线性判别分析模型的打分进行了算法上的优化,降低了打分算法的运算复杂度。其次,我们发现混合高斯概率线性判别分析中的隐藏因子拥有很好的鉴别性以及建模性,从而提出了混合高斯概率线性判别分析模型-余弦距离打分算法和混合高斯概率线性判别分析模型-概率线性判别分析算法。最后我们一共给出五种系统策略,并通过实验对比它们在SRE2012五个测试集上的表现。通过对比发现,所有系统中,混合高斯概率线性判别分析模型,概率线性判别分析算法在五个测试集上表现鲁棒,相对于基线系统性能提升明显。