基于核函数的混合Gamma模型的聚类研究

来源 :浙江大学 | 被引量 : 0次 | 上传用户:jackiesage
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着统计学和机器学习的发展,传统的线性回归、非线性回归等单模型,在处理互联网、经济、金融、图像、语音等领域产生的数据方面,逐渐显现出它们的局限性.由于这些数据的复杂性,传统的单一模型的准确性有所下降,不再适合处理这些问题.  而混合模型由于将多个模型结合起来,这时表现出了更高的拟合、预测、聚类和分类效果.其中,高斯混合模型(GMM),得到了充分的研究,并且在机器学习领域发挥着非常重要的作用.在股票、金融、互联网、图像分割、语音识别等方面的应用非常广泛.同时针对现实生活中线性不可分、离散、缺失值的数据集,传统的处理方法也出现了精度下降、有效性降低的问题.实际的数据中,也有一些数据,像一些图像、语音等样本的特征已不能很好地刻画样本及样本间的区别,严重影响了这些方法在实际生活中的应用.  本文通过核函数将样本空间映射到另一个高维特征空间,可以使本来线性不可分的数据在新空间变得线性可分.同时由于很多数据,样本特征不能很好刻画数据,我们使用样本之间的距离,如:欧式距离度量、相似度度量来刻画,并在此基础上进行分析.此时新的样本特征都是非负的,并且经过高斯核函数变换,新空间是无限维的,混合高斯模型已经不合适,我们建立新空间上的混合Gamma模型.针对大量数据集无类别标签,最大似然估计进行参数估计得不到显式解,我们使用EM算法进行参数估计,最终通过BIC准则进行模型的选择.对于样本量比较大的情况,采用在线EM(online EM)算法进行参数估计.最终通过在UCI数据上的实验可以得到,本文方法与k-means、核k-means等模型相比,参数收敛速度快,效果好.由于本文结合核函数和混合模型的优势,可以很好地处理图像、语音、金融等线性不可分数据,有巨大的商业价值.
其他文献
有色金属产业是国民经济发展的基础产业,为工业和国防科技发展提供重要的原材料,在经济建设和社会发展中起着重要作用。我国是全球最大的有色金属生产和消费国,但我国的有色金属
该文首先回顾了前人相关研究成果及不足(包括样本的选择、预测方法的选择等),揭示了传统的预测方法在研究这一课题时的局限性,对不足之处提出了作者自己的见解.接下来作者对在A
该文的选题正是基于以上背景,以转移支付制度改革作为研究的主题,重点阐述改革的方向,力图设计出一个既能反映市场经济一般要求、又比较适合中国具体国情的目标模式,并在此基
金融监管会在一定程度上限制银行自主经营的能力,这种压制促使商业银行采用回避现有制度,开创新的营业工具的手段.央行面对这种创新也会改进监管方式.两者合力促使双方水平同
该文立足于中国实际,从分析对外贸易变动的总量、结构变化等特征出发,总结国内外研究成果,具体分析造成中国对外贸易波动的因素及其作用机制,贸易波动与经济的互动关系以及我
全文共分为四章:第一章,当前政府采购的发展形势.在该章中阐述了政府采购的定义及中国建立政府采购制度的意义.对政府采购的历史演变及政府采购在中国的发展作了简要的介绍.第
2013年12月16日出版的《中国新闻出版报》刊载国家新闻出版广电总局党组书记、副局长蒋建国的文章,表示要按照《中共中央关于全面深化改革若干重大问题的决定》部署,攻克深层
该文除了引言之外,正文部分共分为四章,其中第一章是理论部分,分析金融混业经营组织结构形成的原因;第二章是有关国外的实证部分,对德国的全能银行和美国的金融控股公司进行
二十世纪以来,伴随着我国经济的快速发展以及个人消费水平的提升,汽车产业空前繁荣,汽车保有量急剧增加,以汽车为抵押物进行的抵押贷款活动也进入了频繁的时期。我国汽车抵押贷款
学位