论文部分内容阅读
超高维数据的收集与存储,因科学技术的飞速发展已不再是问题.那么随之就面临着如何分析此类数据的困难.众所周知,超高维数据,即数据维度特别大,且往往呈现为样本量的指数级增长趋势.而传统的统计分析与推断方法已经不再适用于此类数据.通常,针对超高维数据,我们会有稀疏性原则假设仅有为数不多的预测变量对响应变量产生重要影响.在这样的稀疏性假设下,有很多学者提出了多种超高维变量降维的方法.其中一种方法是将超高维变量的降维分两部进行,首先使用一种高效便捷的变量筛选方法,快速准确地筛选重要预测变量,将数据维度降到一个可控的规模之内,一般会小于样本量个数;随后再使用一些比较成熟的变量选择方法对前面筛选出的数据做进一步降维,以期达到良好的数据降维效果.本文将着重于第一部分的快速降维,基于数据的分布情况,利用决策树中基尼指数的指标,提出一种针对超高维分类数据的特征筛选方法.并且将其推广到响应变量随机缺失的数据中,建立针对缺失数据的特征筛选方法.在第二章中,本文提出了一个新的超高维两分类数据的特征筛选方法.该方法利用决策树中的基尼指数指标,考虑响应变量基尼指数与加入一个预测变量后的条件基尼指数之间的差异.由此构建了基于基尼指数的超高维两分类数据的特征筛选方法(GB-SIS-2).随后,通过大样本理论证明了GB-SIS-2方法满足确定性筛选性质.另外,GB-SIS-2方法还是一种无模型假设的方法,即不需要事先指定预测变量与响应变量之间的相依关系.相对于许多特征筛选方法基于模型假设出发这一点,GB-SIS-2方法不会出现模型假定错误的问题.同时,本文还通过几组不同参数假设的蒙特卡罗数值模拟,比较了该方法与其他几种特征筛选方法的筛选效果.从结果可以看出,该方法在很大程度上都要优于其他筛选方法,由此也验证了其有限样本性质.最后微博博主分类的实例数据,也能够说明该方法的实用性与有效性.在第三章中,本文将第二章中的两分类基尼指数特征筛选法推广到了超高维多分类数据当中,构建了多分类基尼指数特征筛选法(GB-SIS-M).多分类基尼指数特征筛选同样被证明具有第二章中GB-SIS-2方法的所有性质与优点.本章也通过几组不同参数假设的蒙特卡罗数值模拟与基因位点的实例数据,证实了GB-SIS-M方法同样具有良好的有限样本性质.在第四章中,考虑到在超高维数据中缺失数据也占有了很大一部分比重,并且现有的对于超高维缺失数据特征筛选这一部分的研究比较缺乏.所以本章考虑将上面提出的GB-SIS方法,结合传统解决缺失数据问题的逆概率加权法(IPW),构建一个基于基尼指数的响应变量随机缺失下的超高维分类数据特征筛选方法(GB-MAR).对于缺失数据的分析,逆概率加权法相较于完全数据法(CC),能更大程度上保留信息,从而使得筛选更加准确.GB-MAR方法同样是一个无模型假设的筛选方法,在几组蒙特卡罗数值模拟中,我们能清晰地看到GB-MAR的筛选效果明显优于基于完全数据法的GB-CC筛选法,并且GB-MAR并不受缺失比例的影响,这体现了其具有的强稳定性.最后在邮件分类的实例中,GB-MAR的方法筛选出的效果与完整数据下的GB-F方法并无很大差别,显示了GB-MAR方法的使用价值与有效性.