基于偏峰度的模型选择准则及其应用

来源 :北京大学 | 被引量 : 0次 | 上传用户：mixiaoya2008

【摘要】

：

高斯混合模型作为一种强有力的统计学工具已经被广泛应用于模式识别、数据分析、信号与信息处理等诸多领域。在对其参数进行学习和估计时，最常用的方法是EM算法。实质上，EM算法

【作者】

：

王琳

【机构】

：

北京大学

【出处】

：

北京大学

【发表日期】

：

2012年期

【关键词】

：

机器学习逻辑网络高斯模型 EM算法

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

高斯混合模型作为一种强有力的统计学工具已经被广泛应用于模式识别、数据分析、信号与信息处理等诸多领域。在对其参数进行学习和估计时，最常用的方法是EM算法。实质上，EM算法是一种基于最大似然估计的迭代学习算法。因此，它无法保证收敛到全局最优解，并且还必须事先给定正确的高斯分量个数。而在实际问题中，数据中的高斯分量的个数通常是未知的，这样便需要我们在参数学习之前或之中来确定高斯分量的个数。由于高斯分量个数反应了高斯混合模型的规模尺度，高斯分量个数的确定通常被称为高斯混合模型的模型选择问题。实际上，模型选择问题是一个很复杂而且相当困难的问题，许多学者对此进行了研究并提出了各种类型的模型选择准则和方法。最传统的方法是先建立一种有效的模型选择准则，如AIC，BIC，MML，然后再通过EM算法对每个可能的分量个数的模型进行估计并按准则选择出最优的高斯混合模型。显然，模型选择准则的探索和建立始终具有重要的理论意义和应用价值。然而，对于这种传统模型选择方法，虽然它依然会被采用，但是会耗费大批量的时间。为了克服这一弱点，人们最近试图在参数学习的过程直接进行模型选择，提出了自适应模型选择的思路和方法，即在参数学习的过程中，让高斯混合模型的分量个数与数据结构逐步达到适应和匹配，最后即做到了正确的模型选择，也获得了有效的参数的学习与估计。根据高斯混合模型初始分量个数设置的不同，自适应模型选择算法可为尺度增长型、压缩型、和动态（变化）型的。增长型算法从单个或很少高斯出发逐步分裂不合理的分量而最后收敛到正确的高斯混合模型，其典型代表为尺度增长型贪心EM算法。压缩型自适应模型选择算法从较大尺度的高斯混合模型出发通过学习过程将多余分量的混合比例系数逼为零，达到自动模型选择的目的。实际上已经建立了一系列基于贝叶斯阴阳(BYY)和谐学习的此类自动模型选择算法。而动态模型选择学习算法可从任何接近真实尺度的高斯混合模型出发通过一系列对分量的分裂与合并操作收敛到理想的高斯混合模型。这类动态模型选择算法的典型代表就是尺度可动态变化的分合EM算法。　　本文首先利用一维高斯分布在统计学上的偏度和峰度的信息，并通过线性投影将之推广到高维高斯分布，建立了一种新型的高斯混合模型的模型选择准则，称之为偏峰度最小化准则。理论分析表明，新的准则函数（即样本偏度和峰度之和）在高斯混合分布和高斯分布上的取值有着明显不同。因此该准则函数能够有效地度量出各个高斯分量对相应的样本数据实际分布的拟合程度乃至高斯混合模型对整个样本数据的实际分布的拟合程度。因此，偏峰度最小化准则在理论上是有效的。进一步，通过在多组数据上的实验发现，当实际高斯分量的重叠度较高或者样本数较少时，偏峰度最小化准则比其它典型的准则，如AIC，BIC，MML和BYY和谐准则，具有更强的模型选择性能，即更为有效和稳定。基于偏峰度最小化准则，本文进一步提出了两种自适应模型选择算法:贪心EM算法和动态分合EM算法。贪心EM算法从一个较小分量个数的高斯混合模型出发，根据降低样本偏峰度的原则每次将一个最不合理的高斯分量拆分成两个，并通过EM算法重新估计参数，当样本偏峰度总和达到最小值时，算法停止并输出最后的模型和参数作为学习的结果。动态分合EM算法则是从任一个合理或动态尺度的高斯混合模型出发，运行EM算法进行参数估计，再根据降低样本偏峰度的原则将分量进行拆分或合并操作，同样地当样本偏峰度总和达到最小值时，算法停止并输出最后的模型和参数作为学习的结果。通过模拟实验发现，两种算法都能很好地确定模型中数据中的高斯分量的个数，同时由于分量的不断变化，也大大降低了EM算法陷入局部解的可能性，提高了参数学习的能力。我们将贪心EM算法应用于非监督彩色图像分割。实验结果表明该算法能够自动地确定出图像中目标数，分割效果优于一些传统的图像分割算法。另外，对真实数据的聚类分析结果表明，新的动态分合EM算法能够有效地找出真实的类别数，其模型选择的正确率远远高于其它几个自适应模型选择算法，并且其分类正确率也高于其它几个自适应模型选择算法。最后将基于偏峰度准则的动态分合EM算法应用于对广义RBF神经网络的设计和参数学习上，并用于对非线性时间序列的预测。首先，运用动态分合EM算法来确定广义RBF神经网络中的隐单元个数和参数的初始值，然后采用最小均方误差算法来对广义RBF神经网络的参数进行学习并得到预测模型和预测结果。实验结果表明基于偏峰度最小化准则和动态分合EM算法学习的广义RBF神经网络在非线性时间序列预测上明显优于几种传统的神经网络模型和方法。

其他文献

环上两类广义逆的若干性质的研究

学位

湖北仙桃非织造布产业渐入佳境出口交货值占全国总额40%

湖北日报2016-08-03报道(摘要):从湖北仙桃市经信委获悉,上半年,该市非织造布产业(编者按:在造纸业通常称无纺布)实现产值134.6亿元,同比增长13.46%。非织造布产业既是仙桃的

期刊

非织造布湖北仙桃无纺布湖北日报物流运输原料需求

浅谈如何在语文写作教学中对学生进行美育渗透

在小学语文教材中有很多语言隽永深长,情感浓烈醇香,意境优美含蓄,读起来琅琅上口,荣诗情画意于一炉,给人以美的享受,无处不闪现着祖国语言文字美的散之.如小学课本上的《桂

期刊

语文论文美的渗透

浅谈美术教学中如何激发学生学习兴趣

《美术课程标准》实施至今,教学目标在不断完善,美术教学也因此在不断地推向科学和高效,在此之中,唯有对激发学生的学习兴趣始终贯穿于整个美术课标的要求.不难想象,兴趣对于

期刊

美术教学学生学习兴趣美术课程标准外在压力教学实践教学目标美术学对激发课标科学教师动力

Black-Litterman模型在中国市场中的应用——考虑非对称投资者观点的扩展模型

1952年Markowitz发表《Portfolio Selection》一文,提出均值-方差模型,第一次将数量模型引入到现代投资组合管理中,奠定了现代投资组合理论的基石。但此模型在实际应用中往往

学位

资产配置非对称投资者扩展模型观点收益率

家用太阳能光伏发电系统的数学模型与算法

在煤炭、石油等不可再生资源频频告急、环境污染又日益严重的今天，为了寻求经济发展的新动力，各个国家都在积极开发各种新能源。太阳能便是当今被世界各国广泛开发的新能源之一

学位

家用太阳能光伏发电系统优化模型粒子群算法

我国餐饮服务营销现状及发展策略

近年来,我国的餐饮业发展非常迅速,餐饮业的增长率要比其它行业高出十个百分点以上。餐饮业市场潜力巨大,前景非常广阔。但从另一个方面来看,我国餐饮业市场竞争日益激烈,内

期刊

餐饮品牌服务营销营销现状发展策略国际饭店客户忠诚管理集团市场潜力市场竞争内部营销

浅谈工会在构建和谐企业中的作用

近年来，按照中央的统一部署和要求，全国各地深入开展了学习实践科学发展观活动。通过学习实践活动，全体党员对科学发展观的认识更加深刻。科学发展观，是对党的三代中央领导集体关

期刊

工会组织中央领导邓小平理论上海市总工会资金预算奖励办法创先党政工领导六大以来对话沟通

恒安招募电商分销商搭建全国物流配送网

亿邦动力网2016-08-08报道(摘要):8月4日消息,日前,恒安集团发布电子商务经销商招募令,在全国招募电子商务经销商。恒安集团电商总经理姜宇表示,恒安电商经历了几年的发展已

期刊

恒安集团物流配送姜宇购物体验

《中国近现代名家画集·陶博吾》(大红袍)作品征集公告

陶博吾(1900-1996)是中国近现代诗书画艺术大师。陶博吾的诗在中国文学史上独树一帜;所书石鼓文、散氏盘铭,能跳出吴昌硕的藩篱,独辟蹊径;他的画,潇洒敦厚,别有清趣。陶博吾

期刊

陶博吾近现代名家作品征集书画艺术吴昌硕人民美术出版社签署合同中国文学史散氏盘铭深文

基于偏峰度的模型选择准则及其应用

其他学术论文