论文部分内容阅读
随着科学技术的发展,人们开始接触越来越多的数据。特别是随着信息技术的发展,海量数据成为了科学研究中不可缺少的依据。这些海量数据在统计中通常被称为高维数据。一方面,维数的膨胀为数据的分析带来了很大的困难,这通常被人们称之为“维数灾难”。但另一方面,维数的增长又为数据的分析提供了更多的信息,也就是“维数福音”。
在实际应用中,我们遇到数据常常是高维数据,因此高维数据分析是人们一直关心的问题。当前,在高维数据的降维处理方面的研究已经取得了许多显著性的成果,也有许多研究在针对这些理论的实际应用方面进行了探讨。但是,在某种特定类型数据(如经济领域数据)中这些理论方法适用性和应用方法的研究还十分的不足。
图模型作为一种通过描述变量之间相互关系来进行分析的统计工具,在近年来受到了广泛的关注和研究。图模型已经被广泛应用于数据挖掘、模式识别、因果推断、人工智能等研究领域。基于图模型的降维主要有两种方法:一种是通过判断变量之间的边缘独立和条件独立关系来建立图的结构,另一种是通过潜在的图结构中蕴含的似然或者后验概率来进行结构的判断,进而通过图的结构来描述高维变量之间的相关关系,从而将高维数据集分解为若干独立或条件独立的子集。
本论文利用统计模拟的方法,探讨高维稀疏数据集中应用图模型进行降维的算法实现及其适用性和应用效果。这主要包括基于相互信息量与条件相互信息量的高维随机变量降维方法,以及图模型在高维时间序列上应用的拓展。同时,还将研究将图模型降维方法实际应用于GDP及R&D分类数据的分析。