论文部分内容阅读
生物信息学,又称计算分子生物学,以计算机、网络为工具,采用数学和信息科学等的理论、方法和技术去研究生物大分子。它已经发展了大量的独具特色的分析方法和分析软件,为生物学家等提供了强大的分析工具。计算分子生物学已经成为生命科学中异常活跃的研究领域,其中进化分析和比较基因组学已经成为其当前最重要的研究课题之一。本文旨在探索一些简而有效的分析生物数据的方法,为生物学家提供一定的参考,其主要工作集中在对生物序列/结构的比较分析与进化树构建上。本文的研究成果可以概括如下:在序列的比较分析方面,提出了两种针对序列的相似性度量—相对相似性度量和加权相似性度量。相对相似性度量的特点是:它所导出的距离矩阵的主对角线元素值不为零,但是它不影响相似性分析。加权相似性度量的特点是:可以实现对序列的多角度分析。在结构的比较分析方面,建立了RNA二级结构、蛋白质二级结构的随机过程模型,并提出了各自模型下的结构相似性分析方法和结构划分方法;提出了两种辅助分析蛋白质二级结构的方法:三角图形分析方法和傅立叶谱分析方法。这样一来,对蛋白质结构的比较可以从两个方面着手:抽象的数字特征和形象的图形特征;建立了RNA二级构型和RNA Catalan框架,实现了对RNA二级结构的直接计数。它们不仅能够以简单的形式反映出RNA二级结构的结构特征,也能够提供结构特征的数值刻画,从而为RNA二级结构的比较研究提供了新的研究途径。同时,在RNA二级结构特征的启发下,我们给出了组合学里Catalan数的一种划分,得到了带限制条件的Catalan数。在进化树构建方面,我们提出了一种基于RNA二级结构的进化树构建方法和两种基于蛋白质序列的进化树构建方法。这些方法的时间复杂度都不高,不涉及任何模型的假设。其中,基于RNA二级结构的进化树构建方法能够处理复杂性较高的RNA二级结构,而RNAforester却不能(RNAforester是一种比较RNA二级结构的软件,目前被广泛使用)。