论文部分内容阅读
超高维数据在各个科学领域不断涌现并对统计学现有的理论和计算方法提出了新的挑战.一方面,统计理论可能会遇到维数祸根、模型不可识别以及由于高维数导致的变量相关性等问题.另一方面,超高维数据对统计计算也提出了更高的要求.由于分析低维或中等维度的数据集的统计理论和方法已经发展地非常成熟了,因此,我们的研究范围集中在:在不假设模型的具体结构以及不损失超高维数据所包含的信息的前提下,改良现有的或者发展新的降维方法和理论来实现对超高维数据进行降维的目的,并将部分方法和理论应用到超高维数据的模型检验中.论文的具体安排如下: 第一章详述选题的背景与意义,并介绍了超高维数据降维中的一些基本概念,同时回顾了国内外文献的研究进展,最后对本文的研究内容做了简要说明. 第二章中提出了一种新的度量,累积差异(Cumulative Divergence),用来检验随机变量Y的条件均值是否依赖于另一个随机变量X.发现累积差异cumdiv(Y|X)总是非负的,并且当且仅当Y的条件均值不依赖于X的时候取值为0.此外,使用的是X的秩而不是其值本身去构造累积差异,因此其具有稳健性.这一点在处理超高维数据是尤其具有优势.随后,基于累积差异提出一种新的不依赖于模型的特征筛选方法,用来筛选给定x的条件下,对Y的条件均值函数E(Y|x)真正有用的协变量,其中Y是一元的响应变量,x=(X1…Xp)T则是一个超高维的随机向量.在一定的条件下,建立了该方法的一致排序性(Ranking Consistency Property)和确定筛选性(Sure Screening Property).此外,进行了大量的统计模拟以及相应的实际数据分析,以展示我们的方法有限样本性质. 第三章中提出一种基于累积差异(CD)的不依赖于模型的向前回归的方法,以达到对超高维数据进行降维的目的.我们的方法在异常值存在的情况下具有稳健性,这一点在处理高噪声的高维数据集时尤其具有吸引力.此外,我们的向前回归方法,不仅考虑了协变量之间的联合效应(这一点是以往的边际筛选的方法都没有考虑到的),并能自动确定模型大小(这也是其他的筛选的方法所不具备的).在一定的正则条件下,我们的方法选出的协变量的集合依概率收敛到真正有用的协变量的集合.此外,还将进行大量的统计模拟以及相应的实际数据分析. 第四章考虑的是超高维数据中的模型检验问题.广义线性模型(GLM)具有简便性和良好的解释性,因此在实际中得到了广泛的应用.但是面对一个数据集,在对其进行任何基于广义线性模型的统计分析之前,首先要做的是检验这个特定的广义线性模型是否足够刻画出响应变量Y与协变量x之间的回归关系.在这一章中提出一种基于投影的两阶段检验方法,用来对GLM进行模型检验.我们的改进后的两阶段检验方法将样本数据随机等分成两组.在第一组数据上,基于累积差异(CD)进行变量筛选;在第二组数据上,则基于在第一步中保留下来的协变量进行基于投影的拟合优度检验.基于数据分组的两阶段方法避免了第Ⅰ类错误膨胀的问题.此外,在第二阶段中使用的基于投影的检验统计量在原假设下是n相合的,在备择假设下则是√n相合.使用野自助法来确定该检验的临界值并在理论上证明了该方法的可行性.最后,通过统计模拟和一个实际数据分析展示了方法的有限样本性质. 第五章是超高维数据流的降维问题.“超高维”意味着其协变量的维数具有趋于无穷的性质,而“数据流”则是指其样本观测是以数据块的形式持续地到来.由于其同时具有超高维和超大样本量的性质,现在的计算机技术往往没有足够的空间去读取和存储这类数据集,更不用说对其进行统计分析并从中挖掘出有用的信息.在这一章中提出一种基于数据分块的筛选方法.我们的方法一方面使得对超高维数据流的分析变得可行,另一方面也不会浪费任何的已经收集到的数据资源,是以其筛选结果会更加稳健且有效.此外,我们的方法具有一般性,因此能够应用到现存的几乎所有的筛选方法中.该方法能继承它所对应的原始的筛选方法的一致排序性和确定筛选性.最后通过大量的蒙特卡罗模拟发现,当原始的筛选方法有效的时候,提出的对应的筛选方法不仅有效且更加稳健;而若原始的筛选方法不再有效,提出的对应的筛选方法则多能起到较大的弥补和改善. 第六章是结束语,一方面对我们的研究工作做出总结归纳,另一方面对以后需要开展的研究工作做出展望.