论文部分内容阅读
概率统计模型是当今的模式识别领域中的一种非常成功的模型。它有较完善的理沦支持,高效的训练算法,能用较少的模型参数来描述大量数据的分布,因而成为连续语音识别,说话人识别等任务中的主流模型,并且在实际应用中获得了很大的成功。概率统计模型的性能取决于模型形式的选择以及模型参数的估计。在训练数据足够充分的情况下,模型参数越多,模型对于训练数据的描述越精细,模型的性能也就越好。然而,在实际应用中,训练数据总是有限的,模型过于复杂会导致模型参数无法得到可靠估计,反而影响模型的性能。因此,如何在有限数据情况下,选择合理的模型形式,控制参数数量,是提高模型性能,保证系统实用性的关键。
协方差矩阵是概率统计模型参数的最主要部分,其形式的选择对模型性能的影响很大。选择全矩阵形式,模型能显式的刻画特征矢量各维之间的相关性,然而,对于高维的特征矢量,要估计的参数数量会很大,不仅计算量大,而且在有限训练数据情况下不容易得到稳健的估计。而选择对角矩阵,模型的参数数量较少,较容易得到充分可靠的估计。因此,在实际应用中,一般将协方差矩阵选为对角形式。然而,使用对角形式的前提假设是特征矢量各维之间不相关,在很多实际应用中,这种假设并不合理,它将明显影响到模型的描述能力,从而影响到系统的识别性能。
针对这个问题,本论文分别研究了利用线性变换提高高斯混合模型(GMM)和隐马尔科夫模型(HMM)两种用于语音识别的概率统计模型的相关性描述能力。
论文首先研究了采用特征空间的线性变换对特征矢量进行解相关来提高GMM模型相关性描述能力的方法。论文分析并实现了PCA,LDA,MLLT三种特征空间线性变换算法,用于与文本无关的说话人识别。实验结果表明,对于基于对角协方差形式的GMM识别系统,采用了三种不同特征空间线性变换,都使系统性能有明显提高,证明了该方法的有效性和稳定性。
然而,对于与文本无关的说话人识别等比较复杂的任务,由于训练数据量大,想在全特征空间找到一个全局的线性变换矩阵对所有的特征矢量解相关是很困难的。如使用多个线性变换,将特征矢量分类解相关,则可望获得更好的效果。因此,本论文进一步提出了一种基于GMM的模型分类子空间线性解相关的框架。同时提出了基于协方差矩阵相似性的无监督聚类算法,将GMM各个高斯成分按相似性进行分类,获得框架所需要的模型分类子空间。这种框架可以根据训练数据量大小,采用任意多个变换阵,具有很好的灵活性,既能精细的对特征矢量进行解相关,又能保证模型参数的可靠估计。此外,该框架仍采用对角协方差形式,具有模型参数数量较少,计算量较低的优点。实验表明,模型子空间线性解相关的框架不仅比基于对角协方差矩阵的GMM系统有超过35%的相对提高,并且相对于特征空间线性解相关也有超过25%的提高。
对于HMM模型,论文研究实现并比较了在不同级别上共享STC和多类HLDA两种最大似然模型空间线性变换算法,用于提高基于HMM的连续语音识别系统的性能。随着分类数的增加,由于STC和多类HLDA算法的线性变换矩阵参数难以获得可靠估计,从而影响了算法的鲁棒性。论文进一步提出了将协方差矩阵补偿算法HCC与STC和多类HLDA相结合的方法,提高了线性变换矩阵估计的可靠性和稳定性。实验表明,标准的STC算法在RM数据库上能获得12.47%的相对误识率下降,而我们的HCC+STC能获得19.32%的误识率下降。