基于基尼指数的超高维分类数据特征筛选研究

来源 :南京信息工程大学 | 被引量 : 1次 | 上传用户:lifang877
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
超高维数据的收集与存储,因科学技术的飞速发展已不再是问题.那么随之就面临着如何分析此类数据的困难.众所周知,超高维数据,即数据维度特别大,且往往呈现为样本量的指数级增长趋势.而传统的统计分析与推断方法已经不再适用于此类数据.通常,针对超高维数据,我们会有稀疏性原则假设仅有为数不多的预测变量对响应变量产生重要影响.在这样的稀疏性假设下,有很多学者提出了多种超高维变量降维的方法.其中一种方法是将超高维变量的降维分两部进行,首先使用一种高效便捷的变量筛选方法,快速准确地筛选重要预测变量,将数据维度降到一个可控的规模之内,一般会小于样本量个数;随后再使用一些比较成熟的变量选择方法对前面筛选出的数据做进一步降维,以期达到良好的数据降维效果.本文将着重于第一部分的快速降维,基于数据的分布情况,利用决策树中基尼指数的指标,提出一种针对超高维分类数据的特征筛选方法.并且将其推广到响应变量随机缺失的数据中,建立针对缺失数据的特征筛选方法.在第二章中,本文提出了一个新的超高维两分类数据的特征筛选方法.该方法利用决策树中的基尼指数指标,考虑响应变量基尼指数与加入一个预测变量后的条件基尼指数之间的差异.由此构建了基于基尼指数的超高维两分类数据的特征筛选方法(GB-SIS-2).随后,通过大样本理论证明了GB-SIS-2方法满足确定性筛选性质.另外,GB-SIS-2方法还是一种无模型假设的方法,即不需要事先指定预测变量与响应变量之间的相依关系.相对于许多特征筛选方法基于模型假设出发这一点,GB-SIS-2方法不会出现模型假定错误的问题.同时,本文还通过几组不同参数假设的蒙特卡罗数值模拟,比较了该方法与其他几种特征筛选方法的筛选效果.从结果可以看出,该方法在很大程度上都要优于其他筛选方法,由此也验证了其有限样本性质.最后微博博主分类的实例数据,也能够说明该方法的实用性与有效性.在第三章中,本文将第二章中的两分类基尼指数特征筛选法推广到了超高维多分类数据当中,构建了多分类基尼指数特征筛选法(GB-SIS-M).多分类基尼指数特征筛选同样被证明具有第二章中GB-SIS-2方法的所有性质与优点.本章也通过几组不同参数假设的蒙特卡罗数值模拟与基因位点的实例数据,证实了GB-SIS-M方法同样具有良好的有限样本性质.在第四章中,考虑到在超高维数据中缺失数据也占有了很大一部分比重,并且现有的对于超高维缺失数据特征筛选这一部分的研究比较缺乏.所以本章考虑将上面提出的GB-SIS方法,结合传统解决缺失数据问题的逆概率加权法(IPW),构建一个基于基尼指数的响应变量随机缺失下的超高维分类数据特征筛选方法(GB-MAR).对于缺失数据的分析,逆概率加权法相较于完全数据法(CC),能更大程度上保留信息,从而使得筛选更加准确.GB-MAR方法同样是一个无模型假设的筛选方法,在几组蒙特卡罗数值模拟中,我们能清晰地看到GB-MAR的筛选效果明显优于基于完全数据法的GB-CC筛选法,并且GB-MAR并不受缺失比例的影响,这体现了其具有的强稳定性.最后在邮件分类的实例中,GB-MAR的方法筛选出的效果与完整数据下的GB-F方法并无很大差别,显示了GB-MAR方法的使用价值与有效性.
其他文献
2012年国家有关部门发布了许多与汽车行业相关的政策法规,如《关于实施重型商用车辆燃料消耗量管理的通知》《校车安全管理条例》《公路甩挂运输试点专项资金管理暂行办法》
MGCZ100×10重力谷糙分离机研制□刘东山谷糙分离是大米加工流程中的重要而且关键的一道工序.谷糙分离质量的好坏,分离效率的高低,都直接关系到成品米的质量和企业的经济效益.MGCZ100×10重力谷糙分
<正>6月28日,清华大学成立人工智能研究院。今年4月,教育部印发《高等学校人工智能创新行动计划》(以下简称《行动计划》)。《行动计划》提出,支持高校在计算机科学与技术学
1目的:当前环境铜污染越来越严重,而铜又是人体内一种必不可少的微量元素在生命活动中发挥着至关重要的作用,但是高浓度铜蓄积于体内对机体的影响尚没引起人们的足够重视,尤
因网络传播的特点,网络文学在一定程度上改变了传统文学的创作方式、交流方式和传播方式。这些方式的改变,必然会对文学产生重大的影响。从社会学、文学、写作学、文化学四方
愉快的教学能唤起学生对学习的兴趣,激发学生学习的热情和积极性,并帮助学生很快接受新的知识。作为数学老师,要通过灵活、新颖、有趣、生动的教学方式,在艰涩的数学课堂中注入愉
为研究高比例大豆浓缩蛋白饲料中添加含硫氨基酸对黄鳝(30.00±0.15)g生长及氨基酸代谢的影响,设置正对照组(鱼粉550g/kg),负对照组(鱼粉220g/kg,大豆浓缩蛋白300g/kg),并分
淮安是具有浓郁文化底蕴和人文气息的历史名城。悠久的历史积累了许多优秀的文化遗产,对于艺术设计界来说是一笔巨大的财富。在当代设计教育要求突出本地域传统文化特色的背
二硼化锆(ZrB2)作为一种重要的超高温陶瓷材料,具有高熔点(3245℃),高硬度(23 GPa),高导电性及优良的热稳定性等优异性能,被广泛用于超音速飞行器的热保护系统、超燃冲压发动机部件以及高温电极和熔融金属密封系统等领域。利用ZrB2-SiC复合粉体为原料制备的陶瓷涂层具有优异的抗热震、耐腐蚀和抗烧蚀性能,是C/C复合材料超高温抗氧化涂层的理想候选材料之一。在ZrB2基体中添加SiC还可以改
在我国现行著作权法框架下,网络接入服务提供者通常无须为他人的著作权侵权行为承担任何责任。但随着互联网的高速发展,尤其是P2P文件分享技术以及流媒体技术的发展,网络环境