基于低覆盖度测序数据的基因组拷贝数变异检测算法研究

来源 :西安电子科技大学 | 被引量 : 1次 | 上传用户:yongqiangdd
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
拷贝数变异作为一种重要的基因组结构变异,包含大量的基因信息,在人类遗传病、肿瘤及罕见病等复杂疾病中扮演重要的角色。针对不同样本场景(多样本、配对样本和单样本)的拷贝数变异,其研究意义也略有差异:检测多样本中共同拷贝数变异有助于研究物种的群体遗传学特征;检测患病配对样本的拷贝数变异对研究肿瘤等疾病的发生、发展机制及靶向药物治疗等具有重大的意义;另外,在缺乏对照样本时,检测单样本中拷贝数变异可为寻找罕见病等的致病基因提供临床辅助手段。
  新一代测序技术因通量高速度快的特点成为基因组变异的主要分析平台,但其成本随着测序覆盖度的增加而增长。为了控制成本,在全基因组拷贝数变异分析中常使用低覆盖度测序数据。然而,来自低覆盖度数据的读对深度信号对系统噪声和序列比对等的偏差非常敏感,这可能导致基于读对深度的方法识别更多的假的拷贝数变异。如何从高分辨率、低覆盖度测序的读对数据中准确检测出拷贝数变异的结构模式是当前研究的主要难点。
  本文运用低覆盖度测序数据,针对以上不同样本场景,提出了一系列相应的解决方法及工具,提高了检测结果的准确率并降低了假阳性。主要包括以下三项工作:
  (1)研究了群体中共同拷贝数变异内部的位点间相关性,提出了一种基于结构相关性的多样本中共同拷贝数变异检测方法SM-RCNV。针对现有拷贝数变异检测算法在低覆盖度数据中结果假阳性高的问题,考虑了拷贝数变异结构内部位点的相关性,提出了一种结合该相关性与传统的测序读对深度差异特性的新统计量,并利用置换检验的统计方法识别显著性拷贝数变异区域。此处构建的统计量是位点间相关性与该位点对应的读对深度信号的加权之和。为了量化加权和中的权重系数,将现有的带有金标准的数据划分为变异部分和非变异部分,并利用Fisher判别分析法求解此权重系数。与现有方法相比,SM-RCNV提高了检测结果的灵敏度和特异度。
  (2)研究了患病和正常配对样本的读对深度信号比值的分布特点,提出了一种基于读对深度信号比构建多个混合高斯模型来检测拷贝数变异的新方法BagGMM。方法的核心思想:1)为了提高拷贝数变异检测效率,首先采用大的滑动窗对基因组片段分割,同时为了保证变异边界准确率,又采用小的滑动窗对一些方差较大的大窗片段进一步分割,因此提出了“先大窗后小窗”的基因组分割策略用于读对深度信号的计算;2)在粗筛选后,考虑到此时的基因组片段只存在1-拷贝缺失、正常和扩增三种状态,用三个高斯分量分别代表这三种拷贝数状态,对其读对深度比构建3-高斯混合模型;3)为进一步降低结果的假阳性,借助机器学习Bagging思想,构建多个3-高斯混合模型,并汇总多个3-高斯混合模型的检测结果。通过与四种主流算法比较,无论测序覆盖度和拷贝数变异分布如何变化,尤其在低覆盖度测序数据中,BagGMM在灵敏度与特异度方面均能保持稳定高效地检测结果,且优于被比较的方法。另外,该算法可以应用于分析乳腺癌病人和卵巢癌病人的拷贝数变异分布情况,得出与仿真实验一致的结论。
  (3)充分考虑新一代测序数据偏差对检测低覆盖度测序的单样本中拷贝数变异的影响,提出了一种基于读对深度与基因组位置的二维信号来构建Dirichlet过程高斯混合模型的方法dpGMM:1)首先校正测序偏差、比对偏差、GC-偏差等测序数据的各类偏差并平滑读对深度信号;2)考虑到基因组位置的重要性,将平滑的读对深度信号与其对应的基因组位置相结合,将一维空间中的读对深度信号变换成二维剖面,分别反映拷贝数的幅度和位置空间。从水平和垂直两个角度分析读对深度信号数据,进一步提高了检测准确率;3)假设测序样本是多个拷贝数的混合,将每个拷贝数看作一种高斯模型,对二维读对深度信号构建高斯混合模型。无需假设高斯分量的数目,以Dirichlet过程为先验分布,从而提高了准度率并降低了假阳性。与现有方法的检测结果相比,dpGMM始终具有较高的灵敏度和较强的特异度。
  综上,本文从多样本、配对样本和单样本三个角度分别提出了适应于该场景的拷贝数变异检测方法,且这三种方法的检测准确度和特异度均不受测序覆盖度的影响,在低覆盖度数据分析中,依旧保持稳定的性能,同时也具有一定的临床应用价值。
其他文献
波形数字化技术在现代物理实验信号读出领域具有广阔的应用前景。信号波形的直接数字化可以保留信号几乎全部的物理信息,从而能够进行最为精准的物理分析。近年来,电子技术的发展使得波形数字化的性能越来越高,功耗和成本却日渐降低,使用波形数字化技术进行物理实验信号读出已经成为一种趋势。  各种物理实验的特点不尽相同,他们对读出电子学的要求也千差万别。因此针对不同的物理实验,需要设计相应的波形数字化方案。本文针
学位
暗物质的存在已经被宇宙学研究与天文学观测所证实。作为当今物理学界的前沿,国内外许多实验组已经开展了一系列的探测实验,然而从“暗物质”概念的提出到现在已有80多年,这些实验还未探测到暗物质,人类对暗物质粒子的本质也仍然一无所知。  探测暗物质粒子的方法通常分为对撞机产生、直接探测和间接探测。其中直接探测实验需要严格抑制本底事例,搜寻在统计上超出本底事例的暗物质与普通物质相互作用的散射(核反冲)信号。
气体探测器是现代粒子物理实验中不可或缺的测量装置。近年来,随着技术工艺的进步以及物理实验需求的提升,微结构气体探测器(Micro Pattern Gas Detector,MPGD)得到了广泛的研究与应用,其中典型的代表是微网结构气体探测器(MICRO-Mesh-GASeous-structure,Micromegas)和电子倍增器(Gas Electron Multiplier,GEM)。因为空
以石墨烯为代表的二维材料具有独特的二维层状结构,表现出优异的物理、化学等特性,在光通信、光传感、生物医学等众多领域具有重要应用潜力。特别的是,由于二维材料独特的电子结构,伴随入射激光强度的增加,其表现出独特的超宽波段、超快响应等优异特性,已经成为非线性光学和激光技术等领域的研究热点。  非线性光学材料在激光物理领域占有非常重要的地位。在非线性光学器件中,寻找高阈值、宽带响应的非线性光学材料一直是其
随着无线通信的迅速发展,基于位置的服务(LBS)业务需求也不断壮大。在室外等开放场所,全球定位系统(GPS)因能实现高精度、高可靠性的LBS而得到广泛应用。然而在人类活动更加频繁的室内场所,由于建筑物阻挡等原因,GPS很难提供准确的位置信息。这些年来,室内定位得到广泛关注,各种室内定位方法也是层出不穷。现有的室内定位方法,根据不同的技术类别,可分为声学、光学和射频(RF)等方法。  由于RF信号可
随着移动互联网的飞速发展,人们对于消费电子类产品的需求越来越高,因此,对于芯片的性能和功耗提出了更高的要求。然而,由于受到工艺、电压和温度(Process、Voltage、Temperature,PVT)等偏差因素的影响,在数字集成电路设计阶段需要为芯片预留充足的时序余量,以保证芯片在最差条件下仍能正确工作。同时,当芯片工作于低电压下(如近阈值区)时,芯片受PVT的影响加剧,导致预留的时序余量进一
学位
石墨烯具有高载流子迁移率、宽带吸收、透明等属性,使其成为一种极具发展前景的光电材料,可用于开发高速可调的CMOS兼容硅基光源和调制器。本课题针对石墨烯的电光可调特性做了深入研究,并以此为基础在电吸收调制器、纳米天线增强硅波导调制器以及高速可调的MIS隧穿光源等方向开展了系统的研究工作。研究的主要内容及创新点可以概括为以下几点:  1.提出了一种新型的混合SPP波导调制器,与传统SPP波导调制器相比
学位
钙钛矿型的(Ba,Sr)TiO3(BST)薄膜,因为其相变温度可以根据不同器件特定的温度需要进行调节,在铁电材料中一直是研究的热点,特别是集成铁电薄膜器件及其相关的物理问题方面在目前获得了极大的关注。本论文主要是利用射频磁控溅射法,在不同衬底上,制备BST薄膜的异质结构,并通过选取合适的电极、加入过渡层、以及掺杂的工艺,以实现薄膜微观结构的控制、改善薄膜的质量,提高BST薄膜的光电性质。这些实验结
学位
长余辉发光材料是一种关闭光源后仍能持续长时间发光的新型功能材料,被广泛应用于紧急照明、军事和工艺美术等领域。但红色长余辉发光材料的欠缺在一定程度上抑制了长余辉发光材料的应用,所以发光性能较好的红色长余辉发光材料的研制是扩大长余辉发光材料应用领域的关键。而Sr3Al2O6:Eu2+,Dy3+作为一种新型的红色长余辉发光材料,具备铝酸盐长余辉发光材料的优良特性,越来越受到人们的重视。本文采用传统的高温
JPEG2000是由联合图像专家组为静态图像编码所批准的一个新的国际标准.它不仅能提供优于现行标准的率失真特性和主观图像质量,且能提供现行标准不能有效或完全不支持的特性和功能.在这个标准里,采用了小波变换、提升方案和EBCOT(embedded block coding with optimizetruncation)算法.由于这些算法的应用,JPEG2000能提供许多特性,诸如感兴趣区域(ROI
学位