论文部分内容阅读
目的:缺失数据在医学研究领域是一个普遍存在的问题,数据缺失所代表信息丢失。有些信息可能是对研究十分重要的信息,如果忽略这些缺失数据,必然会导致研究结果的偏倚;此外,目前处理数据的算法都是基于完整数据,面对不完整数据,这些数据挖掘算法本身往往难以处理。本文基于随机森林判别分析中缺失数据造成的影响,采用随机森林缺失数据填补法预测缺失数据集中的数据,进而进行后续数据分析。 内容:通过模拟实验探索缺失数据在随机森林建模过程中造成的影响;在介绍随机森林预测缺失数据的原理的基础上,通过模拟实验验证随机森林缺失数据填补法的有效性;随机森林判别分析及缺失数据填补法的软件实现。 方法:使用R语言进行随机森林判别分析和随机森林缺失数据填补的研究,在数据缺失率不同的情况下,通过模拟实验验证随机森林填补缺失数据的有效性。通过分析不同类型的实际数据,探讨随机森林填补缺失数据的适用范围。 结果:主要研究结果如下: 模拟实验显示了在随机森林判别模型中,缺失数据的存在造成了模型的不稳定性。随机森林在分类过程中要用到足够的训练样本,而缺失数据造成了训练样本的缺失,导致随机森林训练不充分,分类效果受到影响。此外,随机森林的分类效果与类间区分度有关,类间区分度越高,其分类效果越好。但随着缺失数据所占比例的增加,分类效果明显下降,类间区分度低的下降的更加显著。 随机森林填补缺失数据不仅限于线性关系,当变量间具有复杂的交互作用及非线性关系时,随机森林缺失数据填补法仍可以有效地处理缺失数据,且效果十分显著。在缺失数据占全部数据的比例较小时,采用随机森林缺失数据填补法尚不能完全体现出其优越性,当缺失数据所占的比例逐渐增加时,其优越性就越发显著。 在回归分析中,缺失数据采用多重填补法(PMM)作为对比研究,PMM法是处理线性模型的方法,其填补缺失数据在线性回归中有良好的效果,模拟实验对比了随机森林回归填补法在线性回归分析中的效果,结果显示随机森林回归填补法与PMM法的效果相当,可以认为随机森林在回归分析中仍然可以有效地处理缺失数据。 结论:缺失数据填补在数据分析中有重要的意义,可以弥补缺失数据对后续数据分析造成的不稳定性问题。随机森林缺失数据填补法可以有效地应用于缺失数据的处理,该方法能考虑到变量间的交互作用及非线性特点,更加适用于解决复杂生物学分析中的数据缺失问题。