论文部分内容阅读
目的:肝癌是全球第6常见的恶性肿瘤,病死率高,已成为危害人类健康的重要疾病。DNA甲基化作为表观遗传中最常见的修饰方式之一,其与肝癌发生进展的关系备受关注。本研究首先利用癌症基因组图谱(The Cancer Genome Atlas,TCGA)中肝癌的DNA甲基化及mRNA表达等数据进行分析,筛选出对HCC的联合诊断能力最强的位点作为候选诊断标记物(或候选位点),再利用基因表达综合数据库(Gene Expression Omnibus,GEO)中肝癌相关的甲基化数据集以及临床组织样本对候选位点的诊断效能及其与所在基因表达水平的关系进行验证,旨在寻找肝癌相关的最佳的DNA甲基化诊断标记物,发现肝癌相关的关键因子,为肝癌的早期诊断、治疗以及改善预后提供新的方向。
方法:1.肝癌相关DNA甲基化生物标记物的筛选:(1)利用TCGA公共数据库下载肝癌level3中的甲基化、mRNA表达数据及临床数据;(2)按照纳入排除标准筛选TCGA的样本;(3)使用R语言中ChAMP软件包对符合纳入排除标准的样本进行差异甲基化分析,获得肝癌组织与癌旁组织间甲基化水平显著差异的位点;(4)使用DESeq包对符合纳入排除标准的样本进行基因差异表达分析;(5)筛选出甲基化差异位点中与对应基因mRNA表达呈负相关的位点;(6)利用缩小重心分类法挖掘能区分肝癌组织与癌旁组织的最佳的甲基化位点集;(7)受试者工作特征曲线(receiver operating characteristic curve,ROC曲线)分析筛选联合诊断能力最强的甲基化位点组合,作为诊断肝癌的候选位点;(8)通过DeLongs检验比较本研究的候选位点与前人筛选的甲基化位点的诊断效能;(9)通过配对t检验分析TCGA中13种癌症的癌与癌旁组织间候选位点的甲基化差异;(10)下载GEO数据库中3个肝癌相关的甲基化数据集,并验证候选位点对肝癌的诊断效能。
2.DNA甲基化标记物的诊断效能在组织水平的验证:(1)使用焦磷酸测序检测50对肝癌组织及其匹配的癌旁组织样本中候选位点的甲基化水平;(2)采用实时荧光定量PCR检测50对肝癌组织及其匹配的癌旁组织样本中候选位点所在基因的mRNA表达水平;(3)利用Spearman等级相关分析候选位点的甲基化水平对其mRNA表达的影响;(4)运用ROC曲线分析验证候选位点对肝癌的诊断效能。
结果:1.诊断标记物的筛选:(1)TCGA数据库甲基化差异分析显示:在肝癌组织与癌旁组织间,共有30439个位点的甲基化水平显著差异(FDR<1E-10,|Delta Beta|>0.2),肝癌组织中有10572个位点甲基化水平上调,19867个位点的甲基化水平下调;(2)TCGA数据库中mRNA测序数据进行差异表达分析显示:在肝癌组织与癌旁组织间,mRNA表达差异基因共有3119个(FDR<0.05,|log2FC|>1),肝癌组织中有1021个基因mRNA低表达,2098个基因mRNA高表达;(3)结合甲基化差异分析和基因表达差异分析结果,筛选出甲基化水平与对应基因表达水平呈负相关的位点总共1611个;(4)利用缩小重心分类法分析显示:设置误判率最小时,共有86个甲基化位点能够有效判别肝癌组织及癌旁组织;(5)ROC曲线分析显示:联合cg12614630、cg23371746、cg25340966、cg19786751和cg06131338这5个位点的ROC曲线下面积(area under curve,AUC)最大(0.993);(6)DeLongs检验发现本研究5个位点的AUC大于Xu RH等10个位点,差异有统计学意义(Z=2.179,P=0.029);与Zheng Y等的10个位点的AUC差异无统计学意义(Z=0.320,P=0.749);(7)配对t检验显示除了HCC外,在13种癌症的癌组织中5个候选位点的甲基化水平不全高于癌旁组织;(8)本研究5个位点联合对GSE54503、GSE89852和GSE56588数据集进行ROC曲线分析发现AUC分别为0.961、0.988及0.996。
2.验证结果:(1)焦磷酸测序结果显示:在50例肝癌组织中cg12614630、cg19786751、cg06131338及cg23371746位点的甲基化水平均高于癌旁组织(P值均<0.001);(2)mRNA表达情况验证结果显示:GPR182及ACACB在肝癌组织中表达水平低于癌旁组织,差异有统计学意义(P值均<0.001),而TBX15在肝癌组织及癌旁组织间的表达水平无明显差异(P=0.410);(3)Spearman等级相关分析结果显示:cg12614630甲基化水平与GPR182的表达水平呈负相关(P<0.001),cg19786751、cg06131338甲基化水平与ACACB的表达水平呈负相关(P均小于0.05),而cg23371746甲基化水平与TBX15的表达水平无明显相关(P=0.792);(4)ROC曲线分析结果显示:cg12614630、cg19786751及cg06131338位点的ROC曲线下面积分别为0.804(95%CI:0.718-0.890,P<0.001)、0.850(95%CI:0.777-0.924,P<0.001)、0.709(95%CI:0.604-0.814,P<0.001),三个位点联合的ROC曲线下面积为0.903(95%CI:0.847-0.959,P<0.001)。
结论:1.在组织水平上,GPR182基因的cg12614630位点、ACACB基因cg19786751及cg06131338位点联合可能是HCC潜在的诊断标记物;2.在HCC中,cg12614630位点高甲基化会抑制GPR182的mRNA表达,GPR182基因可能是HCC相关的抑癌因子;3.在HCC中,cg19786751及cg06131338位点高甲基化会抑制ACACB的mRNA表达,ACACB基因可能是HCC相关的抑癌因子。
方法:1.肝癌相关DNA甲基化生物标记物的筛选:(1)利用TCGA公共数据库下载肝癌level3中的甲基化、mRNA表达数据及临床数据;(2)按照纳入排除标准筛选TCGA的样本;(3)使用R语言中ChAMP软件包对符合纳入排除标准的样本进行差异甲基化分析,获得肝癌组织与癌旁组织间甲基化水平显著差异的位点;(4)使用DESeq包对符合纳入排除标准的样本进行基因差异表达分析;(5)筛选出甲基化差异位点中与对应基因mRNA表达呈负相关的位点;(6)利用缩小重心分类法挖掘能区分肝癌组织与癌旁组织的最佳的甲基化位点集;(7)受试者工作特征曲线(receiver operating characteristic curve,ROC曲线)分析筛选联合诊断能力最强的甲基化位点组合,作为诊断肝癌的候选位点;(8)通过DeLongs检验比较本研究的候选位点与前人筛选的甲基化位点的诊断效能;(9)通过配对t检验分析TCGA中13种癌症的癌与癌旁组织间候选位点的甲基化差异;(10)下载GEO数据库中3个肝癌相关的甲基化数据集,并验证候选位点对肝癌的诊断效能。
2.DNA甲基化标记物的诊断效能在组织水平的验证:(1)使用焦磷酸测序检测50对肝癌组织及其匹配的癌旁组织样本中候选位点的甲基化水平;(2)采用实时荧光定量PCR检测50对肝癌组织及其匹配的癌旁组织样本中候选位点所在基因的mRNA表达水平;(3)利用Spearman等级相关分析候选位点的甲基化水平对其mRNA表达的影响;(4)运用ROC曲线分析验证候选位点对肝癌的诊断效能。
结果:1.诊断标记物的筛选:(1)TCGA数据库甲基化差异分析显示:在肝癌组织与癌旁组织间,共有30439个位点的甲基化水平显著差异(FDR<1E-10,|Delta Beta|>0.2),肝癌组织中有10572个位点甲基化水平上调,19867个位点的甲基化水平下调;(2)TCGA数据库中mRNA测序数据进行差异表达分析显示:在肝癌组织与癌旁组织间,mRNA表达差异基因共有3119个(FDR<0.05,|log2FC|>1),肝癌组织中有1021个基因mRNA低表达,2098个基因mRNA高表达;(3)结合甲基化差异分析和基因表达差异分析结果,筛选出甲基化水平与对应基因表达水平呈负相关的位点总共1611个;(4)利用缩小重心分类法分析显示:设置误判率最小时,共有86个甲基化位点能够有效判别肝癌组织及癌旁组织;(5)ROC曲线分析显示:联合cg12614630、cg23371746、cg25340966、cg19786751和cg06131338这5个位点的ROC曲线下面积(area under curve,AUC)最大(0.993);(6)DeLongs检验发现本研究5个位点的AUC大于Xu RH等10个位点,差异有统计学意义(Z=2.179,P=0.029);与Zheng Y等的10个位点的AUC差异无统计学意义(Z=0.320,P=0.749);(7)配对t检验显示除了HCC外,在13种癌症的癌组织中5个候选位点的甲基化水平不全高于癌旁组织;(8)本研究5个位点联合对GSE54503、GSE89852和GSE56588数据集进行ROC曲线分析发现AUC分别为0.961、0.988及0.996。
2.验证结果:(1)焦磷酸测序结果显示:在50例肝癌组织中cg12614630、cg19786751、cg06131338及cg23371746位点的甲基化水平均高于癌旁组织(P值均<0.001);(2)mRNA表达情况验证结果显示:GPR182及ACACB在肝癌组织中表达水平低于癌旁组织,差异有统计学意义(P值均<0.001),而TBX15在肝癌组织及癌旁组织间的表达水平无明显差异(P=0.410);(3)Spearman等级相关分析结果显示:cg12614630甲基化水平与GPR182的表达水平呈负相关(P<0.001),cg19786751、cg06131338甲基化水平与ACACB的表达水平呈负相关(P均小于0.05),而cg23371746甲基化水平与TBX15的表达水平无明显相关(P=0.792);(4)ROC曲线分析结果显示:cg12614630、cg19786751及cg06131338位点的ROC曲线下面积分别为0.804(95%CI:0.718-0.890,P<0.001)、0.850(95%CI:0.777-0.924,P<0.001)、0.709(95%CI:0.604-0.814,P<0.001),三个位点联合的ROC曲线下面积为0.903(95%CI:0.847-0.959,P<0.001)。
结论:1.在组织水平上,GPR182基因的cg12614630位点、ACACB基因cg19786751及cg06131338位点联合可能是HCC潜在的诊断标记物;2.在HCC中,cg12614630位点高甲基化会抑制GPR182的mRNA表达,GPR182基因可能是HCC相关的抑癌因子;3.在HCC中,cg19786751及cg06131338位点高甲基化会抑制ACACB的mRNA表达,ACACB基因可能是HCC相关的抑癌因子。