基于R语言的医学数据分析挖掘平台研究:文献综合分析模块及转录组数据预测模型模块构建

来源 :武汉大学 | 被引量 : 0次 | 上传用户:get_to_do
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
目的:基因测序技术的高速发展促进了人们对于生物遗传密码的了解和认知,对基因密码的破译和对相关疾病进行大数据的挖掘和分析,大大提速人类研究各类疾病与遗传之间的关系,特别是肿瘤学的研究中,大数据的贡献越来越凸显。根据既定科学问题,制定相应标准纳入研究文献,并且在TCGA、GEO等数据库收集相关研究的全套数据,随后根据研究性质和研究思路设计严谨分析流程,借助R软件编程对数进行多方法学的分析,以得出可以作为科学研究支撑的证据。进一步把流程和方法推广,在R语言的基础上开发成在线分析平台,形成可以供广大科研工作者使用的医学大数据分析挖掘工具。
  方法:多文献库关键词"non-smallcelllungcancer","NSCLC","N2disease","Lymphnode"and"survival"检索,按照“Age”等18项目标研究做文献数据汇总分类,然后用R软件(3.6.3)编程对数据进行多方法学荟萃分析,结合临床病理进行结果分析,得出结论。实现由临床问题出发对文献进行汇总分析的流程和方法的模块化。由此形成系统平台第一模块。再以R语言编程为基础,调用生物学数据处理包TCGAbiolinks、limma、GENIE3、glmnet等,对TCGA等数据库数据进行下载、分析与建模,得出理想预测模型。实现对基因测序数据的分析流程和模块,纳入流程分析平台。
  结果:文献汇总分析和编程R语言对数据多方法学的分析。得出老龄、男性、病理T晚期等因素是pN2型NSCLC(非小细胞肺癌)不良预后因素。且发现跳跃N2转移期的病人术后表现良好。HOXA基因家族模型对急性髓细胞样白血病(LAML)有比较好的预测效果。模型建设方法有比较强的可靠性,可模块化定向形成系统平台。
  结论:基于传统方法学的R语言编程系统化平台,可以很好地辅助医学科研中对医学大数据的处理,降低了医学大数据的编程化处理门槛,提高医学数据的利用效率,辅助医学科学研究。
其他文献
学位
期刊
目的:研究高血压患者血清中血管紧张素Ⅱ(AngiotensinⅡ,AngⅡ)、P-选择素(P-selectin)水平与血压水平、危险因素、临床生化指标、靶器官损害情况、合并临床并发症的关系;探索AngⅡ与P-选择素的相关性。  方法:选取2018.12.01至2019.11.30在华北理工大学附属医院心内科病区就诊的原发性高血压患者,符合纳入、排除标准的研究对象总共214例,所有研究对象均行P-s
期刊
学位
期刊
目的:  近年来肥胖的发生率逐渐升高,肥胖是一种低度、慢性炎症。TNF-α是重要的炎症因子,并且与肥胖脂肪组织炎症密切相关。Wnt3是一种通过激活经典型Wnt信号通路参与参与脂肪细胞分化的糖蛋白,其在肥胖患者体内的表达水平未知。为了探究Wnt3与肥胖之间的相关性,本研究比较分析了肥胖患者与BMI正常者之间成熟脂肪细胞、内脏脂肪组织以及血清中Wn3表达水平的差异性,然后以血清中Wnt3的检测水平为基
学位
期刊
【目的】  早老素(progerin )的累积是儿童早老症(Hutchinson-Gilford Progeria Syndrome,HGPS)致病的关键因素,它能引起儿童早老症患者的细胞出现一系列失衡情况,加速细胞衰老,最终导致个体的早衰。肺癌是全球发病率和死亡率最高的恶性肿瘤之一,其中非小细胞肺癌(non-small cell lung cancer,NSCLC)占大多数。progerin是否
学位
期刊