论文部分内容阅读
目的:基因测序技术的高速发展促进了人们对于生物遗传密码的了解和认知,对基因密码的破译和对相关疾病进行大数据的挖掘和分析,大大提速人类研究各类疾病与遗传之间的关系,特别是肿瘤学的研究中,大数据的贡献越来越凸显。根据既定科学问题,制定相应标准纳入研究文献,并且在TCGA、GEO等数据库收集相关研究的全套数据,随后根据研究性质和研究思路设计严谨分析流程,借助R软件编程对数进行多方法学的分析,以得出可以作为科学研究支撑的证据。进一步把流程和方法推广,在R语言的基础上开发成在线分析平台,形成可以供广大科研工作者使用的医学大数据分析挖掘工具。
方法:多文献库关键词"non-smallcelllungcancer","NSCLC","N2disease","Lymphnode"and"survival"检索,按照“Age”等18项目标研究做文献数据汇总分类,然后用R软件(3.6.3)编程对数据进行多方法学荟萃分析,结合临床病理进行结果分析,得出结论。实现由临床问题出发对文献进行汇总分析的流程和方法的模块化。由此形成系统平台第一模块。再以R语言编程为基础,调用生物学数据处理包TCGAbiolinks、limma、GENIE3、glmnet等,对TCGA等数据库数据进行下载、分析与建模,得出理想预测模型。实现对基因测序数据的分析流程和模块,纳入流程分析平台。
结果:文献汇总分析和编程R语言对数据多方法学的分析。得出老龄、男性、病理T晚期等因素是pN2型NSCLC(非小细胞肺癌)不良预后因素。且发现跳跃N2转移期的病人术后表现良好。HOXA基因家族模型对急性髓细胞样白血病(LAML)有比较好的预测效果。模型建设方法有比较强的可靠性,可模块化定向形成系统平台。
结论:基于传统方法学的R语言编程系统化平台,可以很好地辅助医学科研中对医学大数据的处理,降低了医学大数据的编程化处理门槛,提高医学数据的利用效率,辅助医学科学研究。
方法:多文献库关键词"non-smallcelllungcancer","NSCLC","N2disease","Lymphnode"and"survival"检索,按照“Age”等18项目标研究做文献数据汇总分类,然后用R软件(3.6.3)编程对数据进行多方法学荟萃分析,结合临床病理进行结果分析,得出结论。实现由临床问题出发对文献进行汇总分析的流程和方法的模块化。由此形成系统平台第一模块。再以R语言编程为基础,调用生物学数据处理包TCGAbiolinks、limma、GENIE3、glmnet等,对TCGA等数据库数据进行下载、分析与建模,得出理想预测模型。实现对基因测序数据的分析流程和模块,纳入流程分析平台。
结果:文献汇总分析和编程R语言对数据多方法学的分析。得出老龄、男性、病理T晚期等因素是pN2型NSCLC(非小细胞肺癌)不良预后因素。且发现跳跃N2转移期的病人术后表现良好。HOXA基因家族模型对急性髓细胞样白血病(LAML)有比较好的预测效果。模型建设方法有比较强的可靠性,可模块化定向形成系统平台。
结论:基于传统方法学的R语言编程系统化平台,可以很好地辅助医学科研中对医学大数据的处理,降低了医学大数据的编程化处理门槛,提高医学数据的利用效率,辅助医学科学研究。