论文部分内容阅读
染色体三维结构重建问题通常也被称为染色体三维结构预测问题,是指如何从染色质的二维交互频率数据出发,预测其在三维空间的结构。染色体的三维空间结构对细胞核内基因组的表达、调控和维持基因组稳定有重要作用。以染色体构象捕获技术为基础发展来的Hi-C技术,能够捕获全基因组范围的染色质交互作用信息,经数据处理形成二维的接触矩阵,用于构建染色体的三维结构。如何应用计算技术和生物信息技术预测染色体三维构象已成为三维基因组学研究的核心问题。目前已有的预测方法主要分为两种类型:概率模型和距离约束模型,用于构建染色体三维平均结构或群体结构。这些结构预测方法有助于系统的研究染色体的三维结构,为全面解析与染色体三维结构有关的生物学过程提供了结构依据。本文主要提出了一种基于距离约束优化的结构预测方法:ShRec3D+,将其应用于模拟数据集和真实的Hi-C数据集,验证了该方法重构三维结构的有效性和高效性,从而用于预测染色体三维结构。具体研究成果如下:1.实验分析ShRec3D算法的不足。首先详细介绍了两个经典的距离约束优化方法:ShRec3D和ChromSDE算法的原理和优缺点。接下来介绍了结构由简单到复杂的3个模拟结构数据集的构建过程和公开的GM06990和mESC细胞系的Hi-C数据的来源。最后对以上数据,用ShRec3D和ChromSDE方法预测其结构,并比较了两种方法的性能,指出了ShRec3D不具有通用性,不能有效应用于不同分辨率数据的结构重构研究,并且其有效性依赖于接触矩阵到空间距离矩阵的转换函数。2.基于ShRec3D算法,提出了转换参数可变的ShRec3D+预测方法。首先介绍了ShRec3D+预测三维结构的步骤:一是在转换函数中引入转换参数,将接触矩阵转换为欧氏距离矩阵;二是用图论中的最短距离算法调整距离矩阵的值和填充缺失的距离值,接着用多维尺度变换(MDS)算法预测染色体的三维平均结构;三是用黄金分割算法,重复以上两步来迭代优化寻找最优的转换参数。然后将其用于模拟数据集和真实Hi-C数据,实验说明了ShRec3D+算法能优化转换参数,且转换参数值随着Hi-C数据分辨率的增加而增大,实验分析了ShRec3D+预测结构的有效性和高效性。3.讨论了不同归一化方法得到的Hi-C数据对ShRec3D+预测性能的影响。首先介绍了基于Possion分布的Yeast模拟数据集来源,其更符合真实Hi-C数据特征;接着介绍了基于校正模型的归一化方法:HiCNorm和YT,并用于去除GM06990细胞系Hi-C数据的偏差。然后基于以上数据集,用ShRec3D+和ChromSDE算法进行结构预测,表明了ShRec3D+重构模拟结构的性能优于ChromSDE方法。最后预测不同归一化的Hi-C数据的结构,表明虽然ShRec3D+仍能有效预测染色体的三维结构,但数据的归一化方式仍影响其预测性能。