论文部分内容阅读
生物信息学是一门通过综合利用生物学、计算机、信息技术来进行生物信息的采集、遗传基因和生物图谱的处理、核苷酸和氨基酸序列的分析、蛋白质结构的预测的现代科学。生物信息学可以看做是分子生物学和信息学的结合,它处于21世纪自然科学的前沿领域。在我们的研究过程中,通常从Genbank中获取生物序列信息,辅以MEGA软件、C语言编程处理数据。运用计算机和信息技术研究新的算法和统计方法,开发新的数据分析工具是生物信息学者的一个长期工作。本文主要进行了以下几个方面的工作:1、提出亚氨基酸编码法。赋予氨基酸编码方法下除终止子之外的密码子突变为终止子时每一位发生的变化权值,用矩阵来表示所有的突变方式和难易程度,综合亲水性与疏水性考虑,提出亚氨基酸编码方法,并给出该编码方法下同义密码子的相对使用度(Subtypes Relative Synonymous Codon Usage, SRSCU)。然后选取15条H5N1序列,使用MEGA4.0分析它们的同源性,并分别在氨基酸编码、拟氨基酸编码、亚氨基酸编码这三种环境下研究所选序列使用密码子的偏好性,对比结果,发现亚氨基酸编码方法具有相应的优越性。2、编码检测同源性的一种新方法——矩阵法。首先从氨基酸的同义密码子角度定义了一个反映两序列间同源性的公式,然后建立矩阵并在矩阵上定义运算来检测S的任一非空子集与T的任一非空子集的同源性,命名这种方法为矩阵法,在此基础上进行逐步搜索。通过选取GenBank中的具体序列进行数值试验,与MEGA软件的分析结果对比,证明了矩阵法在逐步搜索过程中的科学性和合理性。3、运用聚类的思想来研究HTLV-Ⅰ病毒的区域性。首先从GenBank中选取来自亚洲、南美洲、非洲的共20条核苷酸序列,用分子生物学软件Vector NTI Suite分析各地区序列样本内部的同源性,然后以各序列的氨基酸含量为对象,编码含量差法,将其作为聚类分析的工具。将聚类分析结果与矩阵法、其他研究者采用实验方法的分析结果比较,发现HTLV-Ⅰ病毒的分布有明显的区域性。同时又一次验证了矩阵法的实用性。本文的创新之处在于:1、提出了新的编码氨基酸的方法。2、丰富了检测同源性的途径,体现了矩阵理论的实用价值。3、不需要进行复杂的实验,运用聚类的思想就可以分析HTLV-Ⅰ病毒的区域性。