论文部分内容阅读
随着基因组学的迅速发展和现代测序技术水平的不断提高,各类生物数据信息得到了爆发式增长。其中,尤以各类基因组计划得到的海量基因数据增速最为明显。然而,由于基因序列组成的复杂性,通过传统的生物实验方法测定基因序列的结构和功能过程复杂、成本高昂。伴随着生物信息学的快速发展,通过计算方法对基因序列的结构和功能进行预测已经成为生物信息学领域十分重要的研究内容之一。基因序列是生物遗传物质的载体,具有特定功能的DNA序列通常会表现出特定的核苷酸排列顺序以及结构组成。DNA复制为半保留复制,通常由某段特定的区域启动,该区域被称为DNA复制起始位点,准确识别DNA复制起始位点对于研究基因物质的遗传机制意义重大。本文利用DNA的序列信息、理化属性以及序列的长程、短程相互作用,结合基于判别式的机器学习分类算法对DNA复制起始位点的预测进行了深入的探索和研究,具体研究内容如下:第一,本文基于完整的DNA复制起始位点序列信息构建了一个标准数据集。DNA复制起始位点结构复杂,通常为长度不一致的DNA序列片段。而目前已有的针对DNA复制起始位点进行预测的判别式方法所采用的数据集均是从完整的DNA复制起始位点中截取的定长DNA序列子片段,而测序实验表明完整的DNA复制起始位点的序列组成具有特定的核苷酸排列顺序以及碱基组成的偏倚性,截取子片段的做法会造成典型特征一定程度上的丢失。对此,本文根据核酸序列数据库GenBank和真核生物DNA复制起始位点数据库DeOri 6.0构建了关于四个物种的完整的DNA复制起始位点序列的标准数据集,并用CD-HIT对数据集中的DNA序列进行去冗余,得到最终的标准数据集。第二,本文提出了一种基于三窗口的伪k元核苷酸组成方法(iRO-3wPseKNC)。针对完整的DNA复制起始位点存在特定的碱基组成顺序和碱基分布不均匀的特性,以及其前导链、滞后链在鸟嘌呤(Guanine,G)和胞嘧啶(Cytosine,C)上存在一种称为GC不对称的核苷酸组成偏倚,iRO-3wPseKNC方法将一条完整的DNA序列通过比例优化划分为三个子窗口,对每个子窗口序列采用伪k元核苷酸组成方法(Pseudo k-tuple nucleotide composition,PseKNC)提取特征,刻画了序列不同区域间的典型特征,并用随机森林算法构建分类器,并通过基尼重要性衡量每个窗口中特征的贡献程度。第三,本文提出了一种可直接描述序列碱基分布不均匀特性的伪k元GC组成方法(iRO-PseKGCC)。基于窗口的伪k元核苷酸组成方法在特征提取部分中仅利用了序列的碱基组成和理化属性信息,仅通过划分窗口区分特征而没有直接包含碱基分布不均匀的特征,在此基础之上,本文进一步提出了k元GC组成思想(k-tuple GC composition,k-GCC),并将直接描述碱基偏倚程度的GC Skew值融入PseKNC框架中,得到了改进方法伪k元GC组成方法(Pseudo k-tuple GC composition,PseKGCC)的计算形式。改进方法相较于iRO-3wPseKNC方法,性能得到了明显提升。在模型训练的过程中,通过计算每一维特征的平均准确率下降(Mean decrease accuracy,MDA)衡量不同特征的重要程度,并将这些特征映射到原始DNA序列的碱基组成,得到最具判别力的k-GCC序列片段。第四,基于伪k元GC组成方法(iRO-PseKGCC)中GC Skew值的计算是基于连续的相距为λ的k元GC组成的局部序列信息来进行计算。为了区别不同物种序列碱基组成偏倚的差异性,本文另提出了基于定长窗口的伪k元GC组成方法和基于累加k的伪k元GC组成方法,2种方法分别从计算GC Skew的局部子序列长度信息的层面,和不同维度的k元GC组成信息层面对不同物种的数据集分别进行研究,在捕获共性的基础上对不同的数据集有不同的效果。最后通过加权平均的集成策略将以上四种分类模型进行融合,最终的模型效果得到了进一步的提升。