论文部分内容阅读
随着高通量测序技术成本持续下降与应用拓展,生物学家愈加倾向使用高通量测序作为解决生物学问题的首选项。高通量测序包括全基因组测序、转录组测序与靶向测序等。靶向测序专门锚定捕获基因组特定区域DNA并进而构建文库与与高深度测序,适用于物种的胚系突变(如遗传疾病)和肿瘤的体突变。靶向测序锚定捕获又分为杂交捕获与PCR捕获两种方法,PCR捕获以通量高、速度快、成本低与生信计算量小备受青睐。前期,本实验室开发了PCR靶向建库方案、测序与数据分析流程,针对肿瘤靶向测序的特殊性,本研究以BRCA与POLE基因为例,揭示肿瘤基因特定分析流程专门化的必要性与重要性。
目的:本文使用多重PCR靶向测序方法,分别捕获若干家族性乳腺癌患者的BRCA1/2基因(胚系突变)和结肠癌患者的POLE基因(体突变)序列。针对测序数据,构建一个既适用于胚系突变,又可用于体突变的肿瘤基因分析流程,并评估该流程的敏感性和准确性。
方法:第一,使用ART软件与python脚本,构造人工模拟突变(SNV与indel)测序数据与混合模拟测序数据,分别评估胚系突变与肿瘤体突变基础分析流程的合理性;第二,对遗传性BRCA1/2进行数据分析,综合采用FASTX-toolkit、Cutadpt、BWA与GATK等主流应用软件、使用python与linux构建从接头去除、比对、变异识别的的流程。并对测得6批次BRCAI/2外显子数据变异注释分析;第三,先采用上述流程分析结肠癌患者POLE基因数据、比较胚系与体突变等位基因频率的差异、比较测序深度对肿瘤变异检出的影响并对POLE基因总体突变负荷进行分析。
结果:(1)模拟结果发现,我们的通用流程对于SNP和INDEL的识别非常灵敏,基本达到100%的正确性;对于低频率突变,在5OX深度下,对10%变异频率的位点,其识别率为60.14%,但是当深度增加到200X的时候,其识别率达到了98.60%,表明增加测序深度有助于对低频率突变位点的识别。(2)对于BRCAI/2基因的分析结果,6批次样本的平均测序深度达到600X以上,数据比对率达到gg.g%以上。在六批次样本中一共calling出64个突变位点(包含重复的),其中4个位点在Clinvar数据库中显示是致病的突变,同时通过多个蛋白质打分软件预测出32363528位置的T>A的突变很有可能是致病位点,而它在Clinvar数据库中被标记为VUS(Variant Uncertain Significace,意义未明突变)。表明该流程适用于胚系突变检测。(3)对于POLE基因的分析结果,深度显著影响变异的检出率,扩增子的平均测序深度达到50000X,可以灵敏识别出5%变异频率的突变位点。106个样本一共检测出10926个SNV的变异,1085个插入变异和1366个缺失变异,SNV突变中共有4421个同义突变,5324个非同义突变。并计算106个样本POLE的突变负荷,其中位数在0.15405。
结论:本研究构建了一个多重PCR靶向测序测序的pipeline,并使用模拟生成的二代测序数据评估该流程的准确性和敏感性。发现在测序深度足够的情况下(大于200X),该流程对突变的识别率达到90%以上。该分析流程分析速度快,中间操作简单,而且广泛适用于多种不同癌症不同基因的大规模样本研究。同时使用该流程分析了家族性乳腺癌患者的BRCA1/2基因和结肠癌患者的POLE基因。对于胚系突变类似于家族性乳腺癌患者的BRCAl/2突变,研究突变致病性的影响,寻找导致突变的位点,并且比对数据库发现了4个突变会导致乳腺癌的发生,并且使用蛋白质预测软件发现了1个未在数据库中显示的有害突变。而对于体突变导致的肿瘤,寻找一个指标类似于突变负荷来预测癌症免疫治疗的疗效,这有利于精准医学的发展。该流程的开发和优化能够极大推动使用靶向测序数据研究多种不同肿瘤的应用。
目的:本文使用多重PCR靶向测序方法,分别捕获若干家族性乳腺癌患者的BRCA1/2基因(胚系突变)和结肠癌患者的POLE基因(体突变)序列。针对测序数据,构建一个既适用于胚系突变,又可用于体突变的肿瘤基因分析流程,并评估该流程的敏感性和准确性。
方法:第一,使用ART软件与python脚本,构造人工模拟突变(SNV与indel)测序数据与混合模拟测序数据,分别评估胚系突变与肿瘤体突变基础分析流程的合理性;第二,对遗传性BRCA1/2进行数据分析,综合采用FASTX-toolkit、Cutadpt、BWA与GATK等主流应用软件、使用python与linux构建从接头去除、比对、变异识别的的流程。并对测得6批次BRCAI/2外显子数据变异注释分析;第三,先采用上述流程分析结肠癌患者POLE基因数据、比较胚系与体突变等位基因频率的差异、比较测序深度对肿瘤变异检出的影响并对POLE基因总体突变负荷进行分析。
结果:(1)模拟结果发现,我们的通用流程对于SNP和INDEL的识别非常灵敏,基本达到100%的正确性;对于低频率突变,在5OX深度下,对10%变异频率的位点,其识别率为60.14%,但是当深度增加到200X的时候,其识别率达到了98.60%,表明增加测序深度有助于对低频率突变位点的识别。(2)对于BRCAI/2基因的分析结果,6批次样本的平均测序深度达到600X以上,数据比对率达到gg.g%以上。在六批次样本中一共calling出64个突变位点(包含重复的),其中4个位点在Clinvar数据库中显示是致病的突变,同时通过多个蛋白质打分软件预测出32363528位置的T>A的突变很有可能是致病位点,而它在Clinvar数据库中被标记为VUS(Variant Uncertain Significace,意义未明突变)。表明该流程适用于胚系突变检测。(3)对于POLE基因的分析结果,深度显著影响变异的检出率,扩增子的平均测序深度达到50000X,可以灵敏识别出5%变异频率的突变位点。106个样本一共检测出10926个SNV的变异,1085个插入变异和1366个缺失变异,SNV突变中共有4421个同义突变,5324个非同义突变。并计算106个样本POLE的突变负荷,其中位数在0.15405。
结论:本研究构建了一个多重PCR靶向测序测序的pipeline,并使用模拟生成的二代测序数据评估该流程的准确性和敏感性。发现在测序深度足够的情况下(大于200X),该流程对突变的识别率达到90%以上。该分析流程分析速度快,中间操作简单,而且广泛适用于多种不同癌症不同基因的大规模样本研究。同时使用该流程分析了家族性乳腺癌患者的BRCA1/2基因和结肠癌患者的POLE基因。对于胚系突变类似于家族性乳腺癌患者的BRCAl/2突变,研究突变致病性的影响,寻找导致突变的位点,并且比对数据库发现了4个突变会导致乳腺癌的发生,并且使用蛋白质预测软件发现了1个未在数据库中显示的有害突变。而对于体突变导致的肿瘤,寻找一个指标类似于突变负荷来预测癌症免疫治疗的疗效,这有利于精准医学的发展。该流程的开发和优化能够极大推动使用靶向测序数据研究多种不同肿瘤的应用。