贝叶斯衍生分类器、回归模型研究及应用

来源 :上海财经大学 | 被引量 : 0次 | 上传用户:guohaoyan
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
使用满条件概率进行分类的贝叶斯分类器是一个基础分类器。我们能够从理论上证明它是一个最优分类器,但是满条件概率计算非常困难,我们需要对满条件概率进行转化和分解。不同的转化和分解方法,便可产生一系列的分类器,这些分类器我们统称为贝叶斯衍生分类器。贝叶斯衍生分类器已成为分类器家族的重要组成部分,这些分类器各具特色,可分别满足不同的实际需求,有着广阔的应用前景。  贝叶斯网络(Bayesian Network,Pearl,1988)是描述随机变量之间依赖关系的图模型,结合贝叶斯网络和概率公式等可进行满条件概率的转化与分解,因此贝叶斯网络是研究贝叶斯衍生分类器的有力工具。贝叶斯衍生分类器由结构(有向无环图)和参数(概率或密度)两部分构成,结构决定分类器的表示形式和参数布局,由结构和训练数据确定参数。  朴素贝叶斯分类器(Naive Bayesian Classifiers,NBC)是最简单的贝叶斯衍生分类器,具有高效率和较好的分类准确性,已在许多领域得到了广泛的应用,但是这种分类器受条件独立性的约束,从而使属性之间的依赖信息无法得到有效的利用。围绕这一问题(如何减弱条件独立性假设),研究者们展开了一系列的研究,形成了贝叶斯衍生分类器研究的一条主线。对贝叶斯衍生分类器的研究主要是针对离散属性的情况,目前对于贝叶斯衍生分类器中的连续属性,可采用两种处理方法:一种是将其离散化,最终转化为离散属性的分类器问题;另一种是不离散化连续属性,直接估计属性密度。两种方法各有优势和不足,本文研究第二种方法,其研究成果也可扩展到混合属性的情况。  本文依据贝叶斯网络、高斯网络、Copula网络、概率统计和信息论等理论与方法,分别使用多元高斯函数、多元高斯核函数、多元高斯Copula函数估计属性密度对朴素贝叶斯分类器进行依赖扩展,建立扩展的朴素贝叶斯分类器(贝叶斯衍生分类器);在连续属性贝叶斯衍生分类器研究的基础上,建立贝叶斯衍生平均回归模型。并将一些贝叶斯衍生分类器和回归模型用于解决经济领域中的实际问题。  本文的主要贡献如下:  (1)朴素贝叶斯分类器以其高效而著称,但是对于属性之间条件独立的假设过于苛刻,会造成信息丢失,从而降低分类准确性。因此,本文将分类准确性标准与属性父结点的贪婪选择相结合,综合考虑效率和分类准确性,对朴素贝叶斯分类器进行一阶依赖扩展(为每个属性变量增加的属性父结点个数不超过一个),并探索进一步的优化方案。使用高斯函数估计属性密度建立朴素贝叶斯分类器的一阶依赖扩展分类器;采用条件高斯函数代替二元高斯核函数中边缘高斯函数的乘积进行叠加,给出新的二元高斯核函数估计属性条件密度的方法,建立朴素贝叶斯分类器的一阶依赖扩展分类器;依据Copula理论,将高斯Copula函数和引入平滑参数的高斯核函数相结合来估计属性条件密度,建立朴素贝叶斯分类器的一阶依赖扩展分类器,并对其进行优化和集成。使用UCI机器学习数据库中连续属性分类数据进行实验,结果显示,经过优化和集成的一阶连续属性贝叶斯衍生分类器具有较高的效率和较好的分类准确性。  (2)朴素贝叶斯分类器不能有效地利用属性之间的依赖信息,而目前所进行的依赖扩展更强调效率,使扩展后分类器的分类准确性还有待于提高,不能满足需要突出可靠性的分类问题。本文将贝叶斯网络、高斯网络、Copula网络、分类准确性标准和属性父结点的贪婪选择相结合,对朴素贝叶斯分类器进行网络依赖扩展建立连续属性贝叶斯网络分类器(不限制为每个属性变量增加的属性父结点个数)。在给出属性联合密度分解与组合定理和属性条件密度计算定理的基础上,建立基于高斯函数估计属性密度的贝叶斯网络分类器;为使用边缘高斯函数的乘积进行叠加的多元高斯核函数引入平滑参数,给出属性联合密度分解、属性条件密度计算和平滑参数优化的方法,建立基于高斯核函数估计属性密度的贝叶斯网络分类器;采用引入平滑参数的一元高斯核函数估计属性边缘密度,在给出基于Copula的属性联合密度分解与组合定理和属性条件密度计算定理的基础上,建立基于高斯Copula估计属性密度的贝叶斯网络分类器。这些改进既可以避免连续属性离散化所带来的问题,又能够充分利用属性之间的条件依赖信息提高分类器的可靠性。使用UCI数据库中连续属性分类数据进行实验的结果显示,这些连续属性的贝叶斯网络分类器均具有良好的分类准确性。本文还进一步依据贝叶斯网络理论,对连续属性贝叶斯衍生分类器中属性为类提供的信息构成进行分析,分离出属性为类提供的三种依赖信息,它们分别是传递依赖信息、直接导出依赖信息和间接导出依赖信息,以此为依据,从另一个角度论述了朴素贝叶斯分类器依赖扩展的必要性。  (3)目前基于分类技术的回归模型只使用最优类的信息进行回归计算,导致信息丢失,降低回归模型的可靠性;贝叶斯网络回归相关研究中贝叶斯网络仅用于估计属性密度,没有实质性地利用分类技术。本文将响应变量的离散化、离散值与连续值之间的对应关系构建、属性密度估计、类的满条件分布估计和以类概率为权重的加权平均等相结合,建立贝叶斯衍生平均回归模型。该模型能够充分利用所有类的分布信息来提高回归可靠性,不需要平稳性和线性关系的假设,而且能够实现动态与静态信息的融合。使用UCI中及宏观经济领域数据进行实验,结果显示了贝叶斯衍生平均回归模型具有良好的回归可靠性。  (4)将贝叶斯衍生分类器用于GDP转折点预测及基于行业的微观主体风险分析与预测;将贝叶斯衍生平均回归模型用于预测工业增加值增长率及房地产投资增长率,这些应用均收到了良好的效果。
其他文献
针对计算机如何进行情感计算,提出一种情感空间的概率模型并对其进行了计算机仿真.通过构造状态的概率转移矩阵,得到每个情感状态的概率分布,从而计算出情感的熵值.情感的熵
高中阶段的物理和初中阶段比较,就好像是两个落差明显的平台,如何从低平台上的初中物理顺利跃升到高平台上的高中物理,这是每一个高中新生都无法回避的课题,也是最终决定高中
期刊
本文在政治传播的视角下,考察中国古代传播媒介“露布”的政治功能和其演变的历史。认为大众传播媒介的形态的进化是随着其功能的发展而进行的。尤其在中国古代,大众传媒媒介
该文从挂篮荷载计算、施工流程、支座及临时固结施工、挂篮安装及试验、合拢段施工、模板制作安装、钢筋安装、混凝土的浇筑及养生、测量监控等方面人手,介绍了S226海滨大桥
论文的第一章首先介绍了财政风险的四种性质及由其组合而成的四种财政风险(矩阵)和与风险化解对应的对冲矩阵,随后结合中国实际情况,对如何提高中国财政预算体制在监控财政风险
该文着重是对中国上市公司的治理结构进行了分析.证券市场在中国仅有十几年的发展时间,相应地,中国上市公司出现的历史也很短暂,但中国证券市场的发展速度、发展规模都是非常
波动率及其相关特性的研究一直都是金融领域中备受关注的焦点问题,它在构建有效资产组合,金融衍生产品定价及风险管理等领域发挥着重要作用。本论文主要以日波动率及与其相关问
综述了 Web数据管理技术 .对 Web数据管理的研究给出了定义 .就 Web数据管理的几个重要问题给出了阐述 .在此基础上提出了一种基于 XML 的 Web数据管理系统的框架和待研究的
地理学科,与其他语文、数学、外语一样,是一门重要的必修课。但由于地理学习不是中考笔试科目,导致学生不愿意认真学习,只是敷衍应付,这个给教师的地理教学带来很大的难度。
期刊
企业绩效是经济绩效的微观层面的一部分,它反映的是企业的经济运行效率。从产业经济学的“窄派”和“宽派”来看,企业绩效是属于其研究的范畴之中,而推动企业绩效成长的因素多种多样,本文从企业文化角度来分析公有制企业绩效。企业文化产生于二十世纪七、八十年代,八十年代初传入我国,并越来越受到企业界、学术界的重视。从近年来的世界经济和企业发展来看,企业绩效和经济绩效与企业文化之间呈现明显的互动关系。美国管理专家