论文部分内容阅读
高斯混合模型作为一种强有力的统计学工具已经被广泛应用于模式识别、数据分析、信号与信息处理等诸多领域。在对其参数进行学习和估计时,最常用的方法是EM算法。实质上,EM算法是一种基于最大似然估计的迭代学习算法。因此,它无法保证收敛到全局最优解,并且还必须事先给定正确的高斯分量个数。而在实际问题中,数据中的高斯分量的个数通常是未知的,这样便需要我们在参数学习之前或之中来确定高斯分量的个数。由于高斯分量个数反应了高斯混合模型的规模尺度,高斯分量个数的确定通常被称为高斯混合模型的模型选择问题。实际上,模型选择问题是一个很复杂而且相当困难的问题,许多学者对此进行了研究并提出了各种类型的模型选择准则和方法。最传统的方法是先建立一种有效的模型选择准则,如AIC,BIC,MML,然后再通过EM算法对每个可能的分量个数的模型进行估计并按准则选择出最优的高斯混合模型。显然,模型选择准则的探索和建立始终具有重要的理论意义和应用价值。然而,对于这种传统模型选择方法,虽然它依然会被采用,但是会耗费大批量的时间。为了克服这一弱点,人们最近试图在参数学习的过程直接进行模型选择,提出了自适应模型选择的思路和方法,即在参数学习的过程中,让高斯混合模型的分量个数与数据结构逐步达到适应和匹配,最后即做到了正确的模型选择,也获得了有效的参数的学习与估计。根据高斯混合模型初始分量个数设置的不同,自适应模型选择算法可为尺度增长型、压缩型、和动态(变化)型的。增长型算法从单个或很少高斯出发逐步分裂不合理的分量而最后收敛到正确的高斯混合模型,其典型代表为尺度增长型贪心EM算法。压缩型自适应模型选择算法从较大尺度的高斯混合模型出发通过学习过程将多余分量的混合比例系数逼为零,达到自动模型选择的目的。实际上已经建立了一系列基于贝叶斯阴阳(BYY)和谐学习的此类自动模型选择算法。而动态模型选择学习算法可从任何接近真实尺度的高斯混合模型出发通过一系列对分量的分裂与合并操作收敛到理想的高斯混合模型。这类动态模型选择算法的典型代表就是尺度可动态变化的分合EM算法。 本文首先利用一维高斯分布在统计学上的偏度和峰度的信息,并通过线性投影将之推广到高维高斯分布,建立了一种新型的高斯混合模型的模型选择准则,称之为偏峰度最小化准则。理论分析表明,新的准则函数(即样本偏度和峰度之和)在高斯混合分布和高斯分布上的取值有着明显不同。因此该准则函数能够有效地度量出各个高斯分量对相应的样本数据实际分布的拟合程度乃至高斯混合模型对整个样本数据的实际分布的拟合程度。因此,偏峰度最小化准则在理论上是有效的。进一步,通过在多组数据上的实验发现,当实际高斯分量的重叠度较高或者样本数较少时,偏峰度最小化准则比其它典型的准则,如AIC,BIC,MML和BYY和谐准则,具有更强的模型选择性能,即更为有效和稳定。基于偏峰度最小化准则,本文进一步提出了两种自适应模型选择算法:贪心EM算法和动态分合EM算法。贪心EM算法从一个较小分量个数的高斯混合模型出发,根据降低样本偏峰度的原则每次将一个最不合理的高斯分量拆分成两个,并通过EM算法重新估计参数,当样本偏峰度总和达到最小值时,算法停止并输出最后的模型和参数作为学习的结果。动态分合EM算法则是从任一个合理或动态尺度的高斯混合模型出发,运行EM算法进行参数估计,再根据降低样本偏峰度的原则将分量进行拆分或合并操作,同样地当样本偏峰度总和达到最小值时,算法停止并输出最后的模型和参数作为学习的结果。通过模拟实验发现,两种算法都能很好地确定模型中数据中的高斯分量的个数,同时由于分量的不断变化,也大大降低了EM算法陷入局部解的可能性,提高了参数学习的能力。我们将贪心EM算法应用于非监督彩色图像分割。实验结果表明该算法能够自动地确定出图像中目标数,分割效果优于一些传统的图像分割算法。另外,对真实数据的聚类分析结果表明,新的动态分合EM算法能够有效地找出真实的类别数,其模型选择的正确率远远高于其它几个自适应模型选择算法,并且其分类正确率也高于其它几个自适应模型选择算法。最后将基于偏峰度准则的动态分合EM算法应用于对广义RBF神经网络的设计和参数学习上,并用于对非线性时间序列的预测。首先,运用动态分合EM算法来确定广义RBF神经网络中的隐单元个数和参数的初始值,然后采用最小均方误差算法来对广义RBF神经网络的参数进行学习并得到预测模型和预测结果。实验结果表明基于偏峰度最小化准则和动态分合EM算法学习的广义RBF神经网络在非线性时间序列预测上明显优于几种传统的神经网络模型和方法。