论文部分内容阅读
在世界范围内,癌症是引起人类死亡的主要原因之一。每年癌症死亡人数大约有820万人。其中非小细胞肺癌(Non-smallcelllungcancer,NSCLS)导致的死亡人数超过一百万,而肺腺癌(Lung adenocarcinoma,LUAD)是NSCLC中最常见的组织学类型。自2011年国际肺癌研究协会/美国胸科学会/欧洲呼吸学会(IASLC/ATS/ERS)引入新的组织学分类后,越来越多的研究为LUAD组织学亚型提供不同见解。然而,肺腺癌尤其是肺腺癌组织学亚型发生的分子机制和预后的相关研究仍不充分。
为探究肺腺癌发生的分子机制和构建预后模型改善预后,本研究下载了癌症基因组图谱(TheCancerGenomeAtlas ,TCGA)数据库中LUAD的基因组,转录组,甲基化组,临床数据,并分为三个部分进行分析。第一部分,使用线性表达模型分析肺腺癌基因突变和基因表达之间的相关性以及相互作用关系。使用Lasso惩罚模型筛选与肺腺癌组织学亚型最相关的基因突变和基因表达特征。使用Cox比例风险模型建立将基因突变、基因表达和临床病理学相结合的生存模型,预测LUAD患者预后。第二部分,使用加权基因共表达网络分析(Weighted Gene Co-Expression Network Analysis, WGCNA),鉴定了与肺腺癌各个组织学亚型最相关的基因模块(module),筛选模块中的核心基因,解析模块中关键的分子机制。第三部分,使用cox回归模型,筛选与肺腺癌预后相关的因子,基于预后因子,构建预后分数,将预后分数作为综合预后因子,与TNM(Tumor, node, metastasis)分期相结合,建立更准确的预后模型。
本研究结果表明,肺腺癌基因突变与33.3%(6054/18175)的基因表达水平相关,并解释了8%-40%基因表达的变化。肺腺癌组织学亚型之间的基因突变和基因表达有显著差异。对于预测总体生存期(Overallsurvival,OS)和无复发生存期(Recurrence-freesurvival ,RFS),整合基因突变、基因表达和临床病理特征的预测模型,比TNM分期系统准确性更高(OS:67%vs.55%;RFS:57%vs.49%;p<0.01),其中转录组的贡献最大(OS:86%;RFS:83%)。3个基因模块与肺腺癌组织学亚型密切相关,基于模块中核心基因,构建出共表达核心子网络,肺腺癌与纤毛运动相关通路存在联系。除此之外,2个miRNA(MIMAT0002890, MIMAT0000426),2个mRNA(CDADC1, FAHD2B)和2个DNA甲基化位点(cg12141052,cg16404170)与生存相关,并通过外部数据库证实上述6个因子与生存相关。基于以上6个因子,构建预后分数(Prognosticscore,PS),作为综合预后因子,并根据PS,将患者分为低风险组和高风险组,两组的生存期有显著差异(OS;p<0.001;RFS;p=0.005)。根据PS和TNM分期(临床早期:StageⅠ/Ⅱ;临床晚期StageⅢ/Ⅳ),将患者分为4个亚组。当低风险和高风险亚组处于临床早期阶段时,两组之间的OS(p<0.001)和RFS(p=0.005)存在显著差异。当低风险和高风险亚组处于临床晚期阶段时,两组之间的OS(p=0.04)存在显著差异,RFS(p=0.2)存在差异但不显著。
综上,在肺腺癌中基因突变与33.3%的基因表达相关,不同组织学亚型之间的基因突变和基因表达有显著差异。对于预测OS和RFS,整合基因突变、基因表达和临床病理特征的预测模型,比TNM分期系统准确性更高,且基因表达贡献最大。与此同时,筛选出与生存相关的6个因子(MIMAT0002890 , MIMAT0000426,CDADC1,FAHD2B,cg12141052,cg16404170),构建PS,对TNM分期系统进行有效补充。
为探究肺腺癌发生的分子机制和构建预后模型改善预后,本研究下载了癌症基因组图谱(TheCancerGenomeAtlas ,TCGA)数据库中LUAD的基因组,转录组,甲基化组,临床数据,并分为三个部分进行分析。第一部分,使用线性表达模型分析肺腺癌基因突变和基因表达之间的相关性以及相互作用关系。使用Lasso惩罚模型筛选与肺腺癌组织学亚型最相关的基因突变和基因表达特征。使用Cox比例风险模型建立将基因突变、基因表达和临床病理学相结合的生存模型,预测LUAD患者预后。第二部分,使用加权基因共表达网络分析(Weighted Gene Co-Expression Network Analysis, WGCNA),鉴定了与肺腺癌各个组织学亚型最相关的基因模块(module),筛选模块中的核心基因,解析模块中关键的分子机制。第三部分,使用cox回归模型,筛选与肺腺癌预后相关的因子,基于预后因子,构建预后分数,将预后分数作为综合预后因子,与TNM(Tumor, node, metastasis)分期相结合,建立更准确的预后模型。
本研究结果表明,肺腺癌基因突变与33.3%(6054/18175)的基因表达水平相关,并解释了8%-40%基因表达的变化。肺腺癌组织学亚型之间的基因突变和基因表达有显著差异。对于预测总体生存期(Overallsurvival,OS)和无复发生存期(Recurrence-freesurvival ,RFS),整合基因突变、基因表达和临床病理特征的预测模型,比TNM分期系统准确性更高(OS:67%vs.55%;RFS:57%vs.49%;p<0.01),其中转录组的贡献最大(OS:86%;RFS:83%)。3个基因模块与肺腺癌组织学亚型密切相关,基于模块中核心基因,构建出共表达核心子网络,肺腺癌与纤毛运动相关通路存在联系。除此之外,2个miRNA(MIMAT0002890, MIMAT0000426),2个mRNA(CDADC1, FAHD2B)和2个DNA甲基化位点(cg12141052,cg16404170)与生存相关,并通过外部数据库证实上述6个因子与生存相关。基于以上6个因子,构建预后分数(Prognosticscore,PS),作为综合预后因子,并根据PS,将患者分为低风险组和高风险组,两组的生存期有显著差异(OS;p<0.001;RFS;p=0.005)。根据PS和TNM分期(临床早期:StageⅠ/Ⅱ;临床晚期StageⅢ/Ⅳ),将患者分为4个亚组。当低风险和高风险亚组处于临床早期阶段时,两组之间的OS(p<0.001)和RFS(p=0.005)存在显著差异。当低风险和高风险亚组处于临床晚期阶段时,两组之间的OS(p=0.04)存在显著差异,RFS(p=0.2)存在差异但不显著。
综上,在肺腺癌中基因突变与33.3%的基因表达相关,不同组织学亚型之间的基因突变和基因表达有显著差异。对于预测OS和RFS,整合基因突变、基因表达和临床病理特征的预测模型,比TNM分期系统准确性更高,且基因表达贡献最大。与此同时,筛选出与生存相关的6个因子(MIMAT0002890 , MIMAT0000426,CDADC1,FAHD2B,cg12141052,cg16404170),构建PS,对TNM分期系统进行有效补充。