论文部分内容阅读
使用满条件概率进行分类的贝叶斯分类器是一个基础分类器。我们能够从理论上证明它是一个最优分类器,但是满条件概率计算非常困难,我们需要对满条件概率进行转化和分解。不同的转化和分解方法,便可产生一系列的分类器,这些分类器我们统称为贝叶斯衍生分类器。贝叶斯衍生分类器已成为分类器家族的重要组成部分,这些分类器各具特色,可分别满足不同的实际需求,有着广阔的应用前景。 贝叶斯网络(Bayesian Network,Pearl,1988)是描述随机变量之间依赖关系的图模型,结合贝叶斯网络和概率公式等可进行满条件概率的转化与分解,因此贝叶斯网络是研究贝叶斯衍生分类器的有力工具。贝叶斯衍生分类器由结构(有向无环图)和参数(概率或密度)两部分构成,结构决定分类器的表示形式和参数布局,由结构和训练数据确定参数。 朴素贝叶斯分类器(Naive Bayesian Classifiers,NBC)是最简单的贝叶斯衍生分类器,具有高效率和较好的分类准确性,已在许多领域得到了广泛的应用,但是这种分类器受条件独立性的约束,从而使属性之间的依赖信息无法得到有效的利用。围绕这一问题(如何减弱条件独立性假设),研究者们展开了一系列的研究,形成了贝叶斯衍生分类器研究的一条主线。对贝叶斯衍生分类器的研究主要是针对离散属性的情况,目前对于贝叶斯衍生分类器中的连续属性,可采用两种处理方法:一种是将其离散化,最终转化为离散属性的分类器问题;另一种是不离散化连续属性,直接估计属性密度。两种方法各有优势和不足,本文研究第二种方法,其研究成果也可扩展到混合属性的情况。 本文依据贝叶斯网络、高斯网络、Copula网络、概率统计和信息论等理论与方法,分别使用多元高斯函数、多元高斯核函数、多元高斯Copula函数估计属性密度对朴素贝叶斯分类器进行依赖扩展,建立扩展的朴素贝叶斯分类器(贝叶斯衍生分类器);在连续属性贝叶斯衍生分类器研究的基础上,建立贝叶斯衍生平均回归模型。并将一些贝叶斯衍生分类器和回归模型用于解决经济领域中的实际问题。 本文的主要贡献如下: (1)朴素贝叶斯分类器以其高效而著称,但是对于属性之间条件独立的假设过于苛刻,会造成信息丢失,从而降低分类准确性。因此,本文将分类准确性标准与属性父结点的贪婪选择相结合,综合考虑效率和分类准确性,对朴素贝叶斯分类器进行一阶依赖扩展(为每个属性变量增加的属性父结点个数不超过一个),并探索进一步的优化方案。使用高斯函数估计属性密度建立朴素贝叶斯分类器的一阶依赖扩展分类器;采用条件高斯函数代替二元高斯核函数中边缘高斯函数的乘积进行叠加,给出新的二元高斯核函数估计属性条件密度的方法,建立朴素贝叶斯分类器的一阶依赖扩展分类器;依据Copula理论,将高斯Copula函数和引入平滑参数的高斯核函数相结合来估计属性条件密度,建立朴素贝叶斯分类器的一阶依赖扩展分类器,并对其进行优化和集成。使用UCI机器学习数据库中连续属性分类数据进行实验,结果显示,经过优化和集成的一阶连续属性贝叶斯衍生分类器具有较高的效率和较好的分类准确性。 (2)朴素贝叶斯分类器不能有效地利用属性之间的依赖信息,而目前所进行的依赖扩展更强调效率,使扩展后分类器的分类准确性还有待于提高,不能满足需要突出可靠性的分类问题。本文将贝叶斯网络、高斯网络、Copula网络、分类准确性标准和属性父结点的贪婪选择相结合,对朴素贝叶斯分类器进行网络依赖扩展建立连续属性贝叶斯网络分类器(不限制为每个属性变量增加的属性父结点个数)。在给出属性联合密度分解与组合定理和属性条件密度计算定理的基础上,建立基于高斯函数估计属性密度的贝叶斯网络分类器;为使用边缘高斯函数的乘积进行叠加的多元高斯核函数引入平滑参数,给出属性联合密度分解、属性条件密度计算和平滑参数优化的方法,建立基于高斯核函数估计属性密度的贝叶斯网络分类器;采用引入平滑参数的一元高斯核函数估计属性边缘密度,在给出基于Copula的属性联合密度分解与组合定理和属性条件密度计算定理的基础上,建立基于高斯Copula估计属性密度的贝叶斯网络分类器。这些改进既可以避免连续属性离散化所带来的问题,又能够充分利用属性之间的条件依赖信息提高分类器的可靠性。使用UCI数据库中连续属性分类数据进行实验的结果显示,这些连续属性的贝叶斯网络分类器均具有良好的分类准确性。本文还进一步依据贝叶斯网络理论,对连续属性贝叶斯衍生分类器中属性为类提供的信息构成进行分析,分离出属性为类提供的三种依赖信息,它们分别是传递依赖信息、直接导出依赖信息和间接导出依赖信息,以此为依据,从另一个角度论述了朴素贝叶斯分类器依赖扩展的必要性。 (3)目前基于分类技术的回归模型只使用最优类的信息进行回归计算,导致信息丢失,降低回归模型的可靠性;贝叶斯网络回归相关研究中贝叶斯网络仅用于估计属性密度,没有实质性地利用分类技术。本文将响应变量的离散化、离散值与连续值之间的对应关系构建、属性密度估计、类的满条件分布估计和以类概率为权重的加权平均等相结合,建立贝叶斯衍生平均回归模型。该模型能够充分利用所有类的分布信息来提高回归可靠性,不需要平稳性和线性关系的假设,而且能够实现动态与静态信息的融合。使用UCI中及宏观经济领域数据进行实验,结果显示了贝叶斯衍生平均回归模型具有良好的回归可靠性。 (4)将贝叶斯衍生分类器用于GDP转折点预测及基于行业的微观主体风险分析与预测;将贝叶斯衍生平均回归模型用于预测工业增加值增长率及房地产投资增长率,这些应用均收到了良好的效果。