论文部分内容阅读
随着高通量测序技术的发展,特别人类基因组计划和千人基因组计划的完成,人类积累了大量的DNA和蛋白质序列数据。分析和理解这些DNA序列和蛋白质序列的特征、功能、结构和物种进化是目前生物学家承待解决的问题,也是一项极具挑战性的工作。本文从一个全新的角度研究DNA和蛋白质序列的相似性,即序列的进化特征。利用DNA和蛋白质顺式序列构造复杂网络,利用复杂网络特征研究DNA和蛋白质序列的相似性。对于DNA序列,借鉴生物学的中心法则的思想为DNA序列构造5种复杂网络。选择9个物种的线粒体DNA序列为例,利用每个网络的特征为9个物种的线粒体DNA序列构造向量,根据欧几里德距离和向量夹角余弦作为度量构造相似性矩阵,利用相似性矩阵构建系统发育树。由此产生的9个种物种之间的系统发育树表示的物种之间的亲缘关系与实际情况一致。然后对构造的5种复杂网络中的部分复杂网络的全局特征基于向量的欧几里德距离或向量夹角余弦分析9个物种的线粒体DNA序列的相似性。由此产生的9个种物种之间的系统发育树表示的物种之间的亲缘关系与实际情况部分一致。最后对9个物种的线粒体DNA序列的5个顺式核苷酸序列复杂网络的局部特征分析DNA序列的相似性。以9个物种的顺式五核苷酸序列网络的拓扑系数为例来说明DNA序列的相似性。对蛋白质序列,首先对每条蛋白质序列构造2个网络,分别为二和三氨基酸顺式序列网络。然后,利用每个网络的14个特征为每个蛋白质序列构造向量,根据向量的欧几里德距离作为度量构造相似性矩阵,利用相似性矩阵构建系统发育树。由此产生的10个物种之间的亲缘关系与实际情况基本一致。我们还考查只用三氨基酸顺式序列网络的全局特征基于向量的欧几里德距离分析蛋白质序列的相似性。对蛋白质二和三氨基酸顺式序列网络以及三氨基酸顺式序列网络基于全局特征进行相似性分析。结果显示两个网络基于欧几里德距离的相似性矩阵建立的10个物种的系统发育树基本相同。最后,利用构造的蛋白质序列的2个顺式氨基酸序列复杂网络的局部特征分析蛋白质序列的相似性。