论文部分内容阅读
随着统计学和机器学习的发展,传统的线性回归、非线性回归等单模型,在处理互联网、经济、金融、图像、语音等领域产生的数据方面,逐渐显现出它们的局限性.由于这些数据的复杂性,传统的单一模型的准确性有所下降,不再适合处理这些问题. 而混合模型由于将多个模型结合起来,这时表现出了更高的拟合、预测、聚类和分类效果.其中,高斯混合模型(GMM),得到了充分的研究,并且在机器学习领域发挥着非常重要的作用.在股票、金融、互联网、图像分割、语音识别等方面的应用非常广泛.同时针对现实生活中线性不可分、离散、缺失值的数据集,传统的处理方法也出现了精度下降、有效性降低的问题.实际的数据中,也有一些数据,像一些图像、语音等样本的特征已不能很好地刻画样本及样本间的区别,严重影响了这些方法在实际生活中的应用. 本文通过核函数将样本空间映射到另一个高维特征空间,可以使本来线性不可分的数据在新空间变得线性可分.同时由于很多数据,样本特征不能很好刻画数据,我们使用样本之间的距离,如:欧式距离度量、相似度度量来刻画,并在此基础上进行分析.此时新的样本特征都是非负的,并且经过高斯核函数变换,新空间是无限维的,混合高斯模型已经不合适,我们建立新空间上的混合Gamma模型.针对大量数据集无类别标签,最大似然估计进行参数估计得不到显式解,我们使用EM算法进行参数估计,最终通过BIC准则进行模型的选择.对于样本量比较大的情况,采用在线EM(online EM)算法进行参数估计.最终通过在UCI数据上的实验可以得到,本文方法与k-means、核k-means等模型相比,参数收敛速度快,效果好.由于本文结合核函数和混合模型的优势,可以很好地处理图像、语音、金融等线性不可分数据,有巨大的商业价值.