高维DNA甲基化数据的随机森林降维分析

来源 :中华疾病控制杂志 | 被引量 : 0次 | 上传用户:a2009090720
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
目的将随机森林算法用于类风湿性关节炎病例对照研究的高维甲基化数据的分析,并探讨应用效果。方法实例数据来自基因表达数据库(gene expression omnibus,GEO),检索号为GSE42861,包含354名病例、335名对照,本文选取类风湿性关节炎相关基因区域所在的第9号染色体,共纳入2 433个胞嘧啶-磷酸-鸟嘌呤双核苷酸(cytosine-phosphate-guanine pairs of nucleotides,CpGs)位点。利用随机森林计算变量的重要性评分并排序;对排序后的变量进行逐步随机森林过程,寻找最有可能与结果存在关联的变量子集;对降维后的变量子集进行逐步Logistic回归。结果逐步随机森林筛选出80个重要的CpG位点,Logistic回归模型中有13个位点具有统计学意义。纳入这些位点建立Logistic回归模型,该模型的预测正确率达88.29%。结论随机森林算法可以大大减少噪音变量,提高检验效能,适用于高维甲基化数据分析。
其他文献
目的:研究片仔癀胶囊合用化疗药治疗肝癌的临床效果。方法:按新药Ⅱ期临床研究方法,将纳入的240例病例按随机双盲对照法分为试验组(介入治疗+片仔癀)120例, 对照组(介入治疗+
目的:研究盆腔器官脱垂(POP)患者阴道壁及子宫骶、主韧带的组织结构特点和神经纤维损伤情况,以及血管活性肠肽(VIP)、神经肽Y(NPY)的表达与POP疾病的关系。方法:选择POP轻度患者7例、
<正>西瓜坐瓜率低的情况发生较普遍,对产量影响大,一般可减产15%~60%,是瓜农常碰到的"烦心事"。现介绍化解西瓜坐瓜率低的四大措施如下。1.重视选地和基肥施用西瓜喜温暖、光
随着我国社会主义市场经济的发展,城镇居民的消费水平得到较大提高,消费需求结构也发生了显著变化。本文旨在利用1995年新疆统计年鉴提供的截面统计资料,采用线性支出系统需求函
目的研究消化道肿瘤患者应用替吉奥为基础化疗的效果及安全性。方法选取2011年12月—2016年12月收治的92例消化道肿瘤患者为研究对象,按随机数表法分为研究组与对照组,各46例
随着时代的快速发展与生产技术的不断革新,人们对生活质量以及环境质量的要求越发严格,传统的交通出行因其安全性以及能源消耗大的特性逐渐将被时代摒弃,取而代之的是愈发智能化的驾驶系统,无人驾驶技术在这一环境下应运而生。无人驾驶技术的关键在于对场景进行实时的三维重建,获取场景的深度信息。然而实际场景复杂多变,难以很好的对场景信息进行恢复,因此还需进一步的研究。本文基于双目视觉的无人驾驶系统进行研究,并针对
本文主要针对含能材料RDX及DAAF两种体系进行理论计算模拟,探究这两种含能材料的物理化学性质。针对含能材料RDX,运用分子动力学结合多尺度冲击技术从微观层面研究在冲击波加载作用下的爆轰反应过程、冲击感度以及其在爆轰反应过程中电子结构等变化规律,依据数值模拟数据为今后实验提供参考,以此来达到指导实验的目的;针对含能材料DAAF,通过Materials Studio中的Castep模块,探究不同压力
互联网呈现爆炸式发展的今天,随着个人移动设备的增多,人们的衣食住行越来越依赖互联网的便利,用户的生活轨迹数据被充分的采集。如何利用这些数据,给用户更加精准地推荐生活上的需求,在如今的时代是一个非常具有挑战的课题。本文提出了一个基于马尔科夫过程的张量链模型,张量作为矩阵在高阶上的拓展,能够更加充分的表现数据的高维特征。张量的特征分解模型能够充分的挖掘数据之间的潜在联系,张量特征分解理论,同样可以通过
研究目的:本研究通过对中老年人进行一年的追踪研究,了解一次性定量负荷运动对不同身体活动水平中老年人心脏功能的影响,探索一年时间内不同身体活动水平中老年人心脏功能的纵
公司作为法律上拟制的人,从其“出生”到“死亡”都有相应的法律来规范其行为。公司正常运行时有《公司法》调整公司的行为规范,公司濒临“死亡”之际,有《破产法》来对症下药。破产重整系统是企业陷入财务困境的良方。良好的公司治理机制是公司的转型能否成功的有力保证。所以,对重整中公司的治理问题研究具有理论与实践意义。破产重整期间的公司是一个不寻常的公司,面临破产清算危险,重整在破产清算的阴影下进行的。但在同一