论文部分内容阅读
拷贝数变异作为一种重要的基因组结构变异,包含大量的基因信息,在人类遗传病、肿瘤及罕见病等复杂疾病中扮演重要的角色。针对不同样本场景(多样本、配对样本和单样本)的拷贝数变异,其研究意义也略有差异:检测多样本中共同拷贝数变异有助于研究物种的群体遗传学特征;检测患病配对样本的拷贝数变异对研究肿瘤等疾病的发生、发展机制及靶向药物治疗等具有重大的意义;另外,在缺乏对照样本时,检测单样本中拷贝数变异可为寻找罕见病等的致病基因提供临床辅助手段。
新一代测序技术因通量高速度快的特点成为基因组变异的主要分析平台,但其成本随着测序覆盖度的增加而增长。为了控制成本,在全基因组拷贝数变异分析中常使用低覆盖度测序数据。然而,来自低覆盖度数据的读对深度信号对系统噪声和序列比对等的偏差非常敏感,这可能导致基于读对深度的方法识别更多的假的拷贝数变异。如何从高分辨率、低覆盖度测序的读对数据中准确检测出拷贝数变异的结构模式是当前研究的主要难点。
本文运用低覆盖度测序数据,针对以上不同样本场景,提出了一系列相应的解决方法及工具,提高了检测结果的准确率并降低了假阳性。主要包括以下三项工作:
(1)研究了群体中共同拷贝数变异内部的位点间相关性,提出了一种基于结构相关性的多样本中共同拷贝数变异检测方法SM-RCNV。针对现有拷贝数变异检测算法在低覆盖度数据中结果假阳性高的问题,考虑了拷贝数变异结构内部位点的相关性,提出了一种结合该相关性与传统的测序读对深度差异特性的新统计量,并利用置换检验的统计方法识别显著性拷贝数变异区域。此处构建的统计量是位点间相关性与该位点对应的读对深度信号的加权之和。为了量化加权和中的权重系数,将现有的带有金标准的数据划分为变异部分和非变异部分,并利用Fisher判别分析法求解此权重系数。与现有方法相比,SM-RCNV提高了检测结果的灵敏度和特异度。
(2)研究了患病和正常配对样本的读对深度信号比值的分布特点,提出了一种基于读对深度信号比构建多个混合高斯模型来检测拷贝数变异的新方法BagGMM。方法的核心思想:1)为了提高拷贝数变异检测效率,首先采用大的滑动窗对基因组片段分割,同时为了保证变异边界准确率,又采用小的滑动窗对一些方差较大的大窗片段进一步分割,因此提出了“先大窗后小窗”的基因组分割策略用于读对深度信号的计算;2)在粗筛选后,考虑到此时的基因组片段只存在1-拷贝缺失、正常和扩增三种状态,用三个高斯分量分别代表这三种拷贝数状态,对其读对深度比构建3-高斯混合模型;3)为进一步降低结果的假阳性,借助机器学习Bagging思想,构建多个3-高斯混合模型,并汇总多个3-高斯混合模型的检测结果。通过与四种主流算法比较,无论测序覆盖度和拷贝数变异分布如何变化,尤其在低覆盖度测序数据中,BagGMM在灵敏度与特异度方面均能保持稳定高效地检测结果,且优于被比较的方法。另外,该算法可以应用于分析乳腺癌病人和卵巢癌病人的拷贝数变异分布情况,得出与仿真实验一致的结论。
(3)充分考虑新一代测序数据偏差对检测低覆盖度测序的单样本中拷贝数变异的影响,提出了一种基于读对深度与基因组位置的二维信号来构建Dirichlet过程高斯混合模型的方法dpGMM:1)首先校正测序偏差、比对偏差、GC-偏差等测序数据的各类偏差并平滑读对深度信号;2)考虑到基因组位置的重要性,将平滑的读对深度信号与其对应的基因组位置相结合,将一维空间中的读对深度信号变换成二维剖面,分别反映拷贝数的幅度和位置空间。从水平和垂直两个角度分析读对深度信号数据,进一步提高了检测准确率;3)假设测序样本是多个拷贝数的混合,将每个拷贝数看作一种高斯模型,对二维读对深度信号构建高斯混合模型。无需假设高斯分量的数目,以Dirichlet过程为先验分布,从而提高了准度率并降低了假阳性。与现有方法的检测结果相比,dpGMM始终具有较高的灵敏度和较强的特异度。
综上,本文从多样本、配对样本和单样本三个角度分别提出了适应于该场景的拷贝数变异检测方法,且这三种方法的检测准确度和特异度均不受测序覆盖度的影响,在低覆盖度数据分析中,依旧保持稳定的性能,同时也具有一定的临床应用价值。
新一代测序技术因通量高速度快的特点成为基因组变异的主要分析平台,但其成本随着测序覆盖度的增加而增长。为了控制成本,在全基因组拷贝数变异分析中常使用低覆盖度测序数据。然而,来自低覆盖度数据的读对深度信号对系统噪声和序列比对等的偏差非常敏感,这可能导致基于读对深度的方法识别更多的假的拷贝数变异。如何从高分辨率、低覆盖度测序的读对数据中准确检测出拷贝数变异的结构模式是当前研究的主要难点。
本文运用低覆盖度测序数据,针对以上不同样本场景,提出了一系列相应的解决方法及工具,提高了检测结果的准确率并降低了假阳性。主要包括以下三项工作:
(1)研究了群体中共同拷贝数变异内部的位点间相关性,提出了一种基于结构相关性的多样本中共同拷贝数变异检测方法SM-RCNV。针对现有拷贝数变异检测算法在低覆盖度数据中结果假阳性高的问题,考虑了拷贝数变异结构内部位点的相关性,提出了一种结合该相关性与传统的测序读对深度差异特性的新统计量,并利用置换检验的统计方法识别显著性拷贝数变异区域。此处构建的统计量是位点间相关性与该位点对应的读对深度信号的加权之和。为了量化加权和中的权重系数,将现有的带有金标准的数据划分为变异部分和非变异部分,并利用Fisher判别分析法求解此权重系数。与现有方法相比,SM-RCNV提高了检测结果的灵敏度和特异度。
(2)研究了患病和正常配对样本的读对深度信号比值的分布特点,提出了一种基于读对深度信号比构建多个混合高斯模型来检测拷贝数变异的新方法BagGMM。方法的核心思想:1)为了提高拷贝数变异检测效率,首先采用大的滑动窗对基因组片段分割,同时为了保证变异边界准确率,又采用小的滑动窗对一些方差较大的大窗片段进一步分割,因此提出了“先大窗后小窗”的基因组分割策略用于读对深度信号的计算;2)在粗筛选后,考虑到此时的基因组片段只存在1-拷贝缺失、正常和扩增三种状态,用三个高斯分量分别代表这三种拷贝数状态,对其读对深度比构建3-高斯混合模型;3)为进一步降低结果的假阳性,借助机器学习Bagging思想,构建多个3-高斯混合模型,并汇总多个3-高斯混合模型的检测结果。通过与四种主流算法比较,无论测序覆盖度和拷贝数变异分布如何变化,尤其在低覆盖度测序数据中,BagGMM在灵敏度与特异度方面均能保持稳定高效地检测结果,且优于被比较的方法。另外,该算法可以应用于分析乳腺癌病人和卵巢癌病人的拷贝数变异分布情况,得出与仿真实验一致的结论。
(3)充分考虑新一代测序数据偏差对检测低覆盖度测序的单样本中拷贝数变异的影响,提出了一种基于读对深度与基因组位置的二维信号来构建Dirichlet过程高斯混合模型的方法dpGMM:1)首先校正测序偏差、比对偏差、GC-偏差等测序数据的各类偏差并平滑读对深度信号;2)考虑到基因组位置的重要性,将平滑的读对深度信号与其对应的基因组位置相结合,将一维空间中的读对深度信号变换成二维剖面,分别反映拷贝数的幅度和位置空间。从水平和垂直两个角度分析读对深度信号数据,进一步提高了检测准确率;3)假设测序样本是多个拷贝数的混合,将每个拷贝数看作一种高斯模型,对二维读对深度信号构建高斯混合模型。无需假设高斯分量的数目,以Dirichlet过程为先验分布,从而提高了准度率并降低了假阳性。与现有方法的检测结果相比,dpGMM始终具有较高的灵敏度和较强的特异度。
综上,本文从多样本、配对样本和单样本三个角度分别提出了适应于该场景的拷贝数变异检测方法,且这三种方法的检测准确度和特异度均不受测序覆盖度的影响,在低覆盖度数据分析中,依旧保持稳定的性能,同时也具有一定的临床应用价值。