论文部分内容阅读
拷贝数变异CNV(Copy Number Variation)是由于基因重排而导致的一种大小大于1kb的基因变异。它是人类基因组结构变异的重要组成部分,在人类疾病中扮演了重要的角色。基于此,本文分别以普通下一代测序和单细胞测序数据中的CNVs为研究对象,建立多范数约束下的优化模型,并对其进行验证和评估,主要内容如下:首先,本文简要地介绍了下一代测序和单细胞测序的工作原理,并对其在现代生物学和医学科学中的应用做了简要的回顾。其次,本文详细地介绍了上述测序的分析流程:前者的分析流程包括比对、校正、统计以及检测;后者的流程则较为复杂,为此本文着重介绍了可变窗口模型和在线分析工具Ginkgo的流程。之后,本文提出了两个模型:1)基于下一代测序的ADM-CNV,它是一种多范数的CNVs检测模型,其假定处理后的读深度信号具有稀疏性(大部分正常值为0)和平滑性(相邻两个位点的值近似相等),进而将CNVs的检测转化为一个求解多范数的优化问题,并采用经典坐标轮换算法ADMM(Alternating Direction Minimization Method)来快速高效地求解;2)而基于单细胞测序的Poisson-CNV,则根据单细胞测序数据中的噪声分布,建立CNVs信号重建模型,之后按照1)中的思路进行建模和求解。最后,本文通过模拟和真实实验来评估新模型的性能,并将实验结果与几种主流方法进行对比。结果表明新的模型在模拟和真实数据集上均表现出较好的性能,证明了模型的准确性和可行性。综上所述,本文的主要贡献如下:1)论文基于下一代测序提出了新的CNVs检测模型ADM-CNV,该模型特别考虑到拷贝数信号的稀疏性和平滑性,改进了该类信号恢复模型的不足,有效地丰富和完善了CNVs的检测方法体系;2)论文基于单细胞测序提出了新模型Poisson-CNV,该模型可较好地拟合测序数据中的技术性噪声,为单细胞测序数据中的CNVs检测提供了新的解决思路;3)Poisson-CNV模型还可用于肿瘤单细胞测序,进而为我国风起云涌的单细胞测序和临床肿瘤研究提供新颖的基础理论模型和实用算法工具。