超高维数据中的降维方法及其在模型检验中的应用

来源 :上海财经大学 | 被引量 : 0次 | 上传用户：haili20102010

【摘要】

：

超高维数据在各个科学领域不断涌现并对统计学现有的理论和计算方法提出了新的挑战.一方面，统计理论可能会遇到维数祸根、模型不可识别以及由于高维数导致的变量相关性等问题.

【作者】

：

周亭攸

【机构】

：

上海财经大学

【出处】

：

上海财经大学

【发表日期】

：

2017年期

【关键词】

：

超高维数据统计计算降维方法模型检验

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

超高维数据在各个科学领域不断涌现并对统计学现有的理论和计算方法提出了新的挑战.一方面，统计理论可能会遇到维数祸根、模型不可识别以及由于高维数导致的变量相关性等问题.另一方面，超高维数据对统计计算也提出了更高的要求.由于分析低维或中等维度的数据集的统计理论和方法已经发展地非常成熟了，因此，我们的研究范围集中在:在不假设模型的具体结构以及不损失超高维数据所包含的信息的前提下，改良现有的或者发展新的降维方法和理论来实现对超高维数据进行降维的目的，并将部分方法和理论应用到超高维数据的模型检验中.论文的具体安排如下:　　第一章详述选题的背景与意义，并介绍了超高维数据降维中的一些基本概念，同时回顾了国内外文献的研究进展，最后对本文的研究内容做了简要说明.　　第二章中提出了一种新的度量，累积差异(Cumulative Divergence)，用来检验随机变量Y的条件均值是否依赖于另一个随机变量X.发现累积差异cumdiv(Y|X)总是非负的，并且当且仅当Y的条件均值不依赖于X的时候取值为0.此外，使用的是X的秩而不是其值本身去构造累积差异，因此其具有稳健性.这一点在处理超高维数据是尤其具有优势.随后，基于累积差异提出一种新的不依赖于模型的特征筛选方法，用来筛选给定x的条件下，对Y的条件均值函数E(Y|x)真正有用的协变量，其中Y是一元的响应变量，x=（X1…Xp）T则是一个超高维的随机向量.在一定的条件下，建立了该方法的一致排序性(Ranking Consistency Property)和确定筛选性(Sure Screening Property).此外，进行了大量的统计模拟以及相应的实际数据分析，以展示我们的方法有限样本性质.　　第三章中提出一种基于累积差异(CD)的不依赖于模型的向前回归的方法，以达到对超高维数据进行降维的目的.我们的方法在异常值存在的情况下具有稳健性，这一点在处理高噪声的高维数据集时尤其具有吸引力.此外，我们的向前回归方法，不仅考虑了协变量之间的联合效应（这一点是以往的边际筛选的方法都没有考虑到的），并能自动确定模型大小（这也是其他的筛选的方法所不具备的）.在一定的正则条件下，我们的方法选出的协变量的集合依概率收敛到真正有用的协变量的集合.此外，还将进行大量的统计模拟以及相应的实际数据分析.　　第四章考虑的是超高维数据中的模型检验问题.广义线性模型(GLM)具有简便性和良好的解释性，因此在实际中得到了广泛的应用.但是面对一个数据集，在对其进行任何基于广义线性模型的统计分析之前，首先要做的是检验这个特定的广义线性模型是否足够刻画出响应变量Y与协变量x之间的回归关系.在这一章中提出一种基于投影的两阶段检验方法，用来对GLM进行模型检验.我们的改进后的两阶段检验方法将样本数据随机等分成两组.在第一组数据上，基于累积差异(CD)进行变量筛选;在第二组数据上，则基于在第一步中保留下来的协变量进行基于投影的拟合优度检验.基于数据分组的两阶段方法避免了第Ⅰ类错误膨胀的问题.此外，在第二阶段中使用的基于投影的检验统计量在原假设下是n相合的，在备择假设下则是√n相合.使用野自助法来确定该检验的临界值并在理论上证明了该方法的可行性.最后，通过统计模拟和一个实际数据分析展示了方法的有限样本性质.　　第五章是超高维数据流的降维问题.“超高维”意味着其协变量的维数具有趋于无穷的性质，而“数据流”则是指其样本观测是以数据块的形式持续地到来.由于其同时具有超高维和超大样本量的性质，现在的计算机技术往往没有足够的空间去读取和存储这类数据集，更不用说对其进行统计分析并从中挖掘出有用的信息.在这一章中提出一种基于数据分块的筛选方法.我们的方法一方面使得对超高维数据流的分析变得可行，另一方面也不会浪费任何的已经收集到的数据资源，是以其筛选结果会更加稳健且有效.此外，我们的方法具有一般性，因此能够应用到现存的几乎所有的筛选方法中.该方法能继承它所对应的原始的筛选方法的一致排序性和确定筛选性.最后通过大量的蒙特卡罗模拟发现，当原始的筛选方法有效的时候，提出的对应的筛选方法不仅有效且更加稳健;而若原始的筛选方法不再有效，提出的对应的筛选方法则多能起到较大的弥补和改善.　　第六章是结束语，一方面对我们的研究工作做出总结归纳，另一方面对以后需要开展的研究工作做出展望.

其他文献

今天我们敢不敢把钱都交给AI

有什么事是比赚钱更爽的吗?那当然是什么也不做就赚钱.小的时候,还曾经想当科学家的我们可能想过这样一幕:发明个机器人,让他去想办法赚钱,自己只管花钱就对了.rn而当AI技术

期刊

基于重叠率衡量融合策略的层次聚类算法研究

期刊

一种基于极大团的公共交通网络层次聚类算法

期刊

周敬油画作品选

请下载后查看，本文暂不支持在线获取查看简介。 Please download to view, this article does not support online access to view profile.

期刊

中共中央批转西北局关于长安县各界代表会议经验的指示

(一九四九年十一月二日)各中央局分局:请你们注意长安县的经验。并请你们转发所属注意仿行。中央十一月二日根据中央档案馆保存的毛泽东手稿刊印各省委,区党委,及各直地委,并

期刊

代表会议安县中共中央长安中央局农民运动群众斗争会说话农民代表四九

我国金融控股公司内部控制和监管体系探究

该文就金融控股公司为对象对它的内部控制制度和监管体系进行研究.该文从规模经济、范围经济、协同效应、风险递减等一些动因的角度分析了中国金融控股公司的起源,又描述了中

学位

金融控股公司内部控制制度监管体系混业经营

新时代下互动性在书籍设计中的应用分析

该文从挂篮荷载计算、施工流程、支座及临时固结施工、挂篮安装及试验、合拢段施工、模板制作安装、钢筋安装、混凝土的浇筑及养生、测量监控等方面人手,介绍了S226海滨大桥

期刊

一种改进的子空间选择算法在聚类中的应用

期刊

影响我国上市公司股利分配的内部因素分析

学位

我国中小企业政策结构问题研究

“强位弱势”是各国中小企业发展的一个共同特征，正因为如此，中小企业迫切需要政府在政策上给予支持。现有成果主要是针对中小企业发展过程中的一些弱势表现例如融资，技术更新等

学位

中小企业风险政策结构系统

超高维数据中的降维方法及其在模型检验中的应用

其他学术论文