基于随机森林模型的缺失数据填补方法的研究

来源 :哈尔滨医科大学 | 被引量 : 0次 | 上传用户:fugle0908
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
目的:缺失数据在医学研究领域是一个普遍存在的问题,数据缺失所代表信息丢失。有些信息可能是对研究十分重要的信息,如果忽略这些缺失数据,必然会导致研究结果的偏倚;此外,目前处理数据的算法都是基于完整数据,面对不完整数据,这些数据挖掘算法本身往往难以处理。本文基于随机森林判别分析中缺失数据造成的影响,采用随机森林缺失数据填补法预测缺失数据集中的数据,进而进行后续数据分析。  内容:通过模拟实验探索缺失数据在随机森林建模过程中造成的影响;在介绍随机森林预测缺失数据的原理的基础上,通过模拟实验验证随机森林缺失数据填补法的有效性;随机森林判别分析及缺失数据填补法的软件实现。  方法:使用R语言进行随机森林判别分析和随机森林缺失数据填补的研究,在数据缺失率不同的情况下,通过模拟实验验证随机森林填补缺失数据的有效性。通过分析不同类型的实际数据,探讨随机森林填补缺失数据的适用范围。  结果:主要研究结果如下:  模拟实验显示了在随机森林判别模型中,缺失数据的存在造成了模型的不稳定性。随机森林在分类过程中要用到足够的训练样本,而缺失数据造成了训练样本的缺失,导致随机森林训练不充分,分类效果受到影响。此外,随机森林的分类效果与类间区分度有关,类间区分度越高,其分类效果越好。但随着缺失数据所占比例的增加,分类效果明显下降,类间区分度低的下降的更加显著。  随机森林填补缺失数据不仅限于线性关系,当变量间具有复杂的交互作用及非线性关系时,随机森林缺失数据填补法仍可以有效地处理缺失数据,且效果十分显著。在缺失数据占全部数据的比例较小时,采用随机森林缺失数据填补法尚不能完全体现出其优越性,当缺失数据所占的比例逐渐增加时,其优越性就越发显著。  在回归分析中,缺失数据采用多重填补法(PMM)作为对比研究,PMM法是处理线性模型的方法,其填补缺失数据在线性回归中有良好的效果,模拟实验对比了随机森林回归填补法在线性回归分析中的效果,结果显示随机森林回归填补法与PMM法的效果相当,可以认为随机森林在回归分析中仍然可以有效地处理缺失数据。  结论:缺失数据填补在数据分析中有重要的意义,可以弥补缺失数据对后续数据分析造成的不稳定性问题。随机森林缺失数据填补法可以有效地应用于缺失数据的处理,该方法能考虑到变量间的交互作用及非线性特点,更加适用于解决复杂生物学分析中的数据缺失问题。
其他文献
职业学校教育作为一种就业教育,职业学校对学生职业能力的训练和培养十分重视,以此强化和发展学生的心智技能和动作技能,培养出社会所需的应用型与技能型人才。在职业技能能力培
【摘 要】 自适应学习技术是实现个性化教育理念的载体,引发了人工智能时代美国高校教学新变革。基于技术文化哲学视角,美国高校自适应学习变革可从“技术范式-行为作用-体制形态-价值面相”四个维度展开分析。具体而言,美国高校自适应学习发展历程可大致划分为萌芽期(20世纪六七十年代至2007年)、起步期(2008年至2012年)、加速期(2013年至今)三个主要阶段,分别呈现技术奠基、试点应用和大力推广
维生素E琥珀酸酯(RRR-α-tocopheryl succinate,VES)是维生素E的衍生物,能够抑制不同种系和不同组织来源的肿瘤细胞生长及诱导细胞凋亡。本研究以SGC-7901细胞为研究模型,探讨VE
在“十四五”规划期间,我国教育事业的发展重心将逐渐从构建终身教育体系向构建服务全民终身学习的教育体系转移.这一战略转移的意图在于,当宏观层面基本实现了终身教育理念
从20世纪90年代开始,全球先后有150多个国家构建了各具特色的国家资历框架,目的是提高公民的整体技能水平,改善教育培训系统与劳动力市场之间的关系.纵观近30年的发展历程,国
目的:为了掌握麻疹的发生发展趋势,准确地把握今后一段时期麻疹发病率的变化动向,对哈尔滨市麻疹流行特征进行分析。通过抗体水平豁测结果,了解和评价我市不同地区、不同年龄人群
在技术改善学习的研究背景下,开展技术促进学生批判性思维发展的教学研究是一种新的尝试,探究技术促进学生批判性思维发展的教学机理更具有较高的教育意义和实践价值.本研究
【摘 要】 文献普遍显示慕课完成率很低,大多数课程的完成率在5%~15%之间。造成这种情况的原因是多方面的,本文认为原因之一是学生对慕课的总体体验(结构、内容和教学等)不满意。根据SERVQUAL(服务质量)的满意度量表,服务质量可以被定义为期望与实际体验之间的差距。因此,本文认为如果学生能充分了解自己对慕课的期望,并根据这些期望为慕课学习做好准备,那么服务质量会得到提升。本文是一篇已经发表的慕
目的:研究维生素A缺乏对大鼠铁营养状况的影响及对大鼠铁调节蛋白(IRPs)及相关基因--肝脏转铁蛋白受体(TfR),铁蛋白(Fn),及相关蛋白--肝脏TfR和Fn表达的影响,为进一步研究维生素A
社区教育在构建学习型社会过程中成为提升居民素质、丰富居民文化生活、促进社会和谐稳定的重要因素,也成为构建终身教育体系、建设学习型社会的必要形式和基本途径.在已有社