论文部分内容阅读
人类基因组计划(HGP)的顺利完成和进一步深入标志着生命科学已步入后基因组时代。基因和蛋白质已成为现代生命科学的主要研究对象。科学家们将着重于研究DNA序列信息、蛋白质结构信息以及它们之间的相互作用。破译每一水平的生物信息提出了与基因或蛋白质有关的统计和组合数学问题;生物信息的急剧增长也带来了对计算机科学的挑战。为此,计算分子生物学和生物信息学便应运而生。这两个‘孪生’的学科,不仅具有重大的科学意义,而且具有巨大的经济效益。它们已成为当前生命科学中最关键、最重要的部分,也是21世纪自然科学的核心领域之一。在本文绪论部分里,概述了生物信息学产生的历史、产生背景和理论意义,简单叙述了其研究对象和主要研究内容,并介绍了一些生物学的简单知识。
1983年Hamori和Ruskin提出了DNA序列图形表示的思想——将DNA序列投影到一条平面或空间中的曲线,自此国内外不少专家学者如M.Randic,A.Nandy以及国内郭晓峰、王天明等人提出了众多的图形表示法。我国著名理论物理专家张春霆院士也提出了一种DNA序列几何图形表示——Z曲线,天津大学生物信息中心用这种思路研究了真核和原核基因组中若干重要问题,证明这样的思路是切实可行的。综合所有数量图形表示方法,根据其对应的空间,分为二维(2D)图形表示法、三维(3D)图形表示法和高维数量图形表示法。
针对现有的图形表示法的缺点:(1)DNA序列对应的图形上存在重叠和回路,导致退化现象,容易造成生物信息的丢失,(2)由于碱基初始定义不同,导致对应图形不唯一;我们在第二章中分别提出了一种新四维数量图形表示法和一种新三维图形表示法。这两种方法都很好地避免了退化现象的产生,而且新四维数量图形表示方法具有唯一性,三维图形表示法只对应两种图形,明显少于其它图形表示法,在一定程度上减少了计算量。
第三章给出利用新图形表示法计算序列相似性的方法,首先利用图形表示法构造特征矩阵并计算矩阵不变量(特征值),用该不变量组成向量,最后通过计算两个向量终点的欧式距离得到相似性数据。我们结合第二章提出的两种新数量图形表示方法,针对十一种生物的β-globin exons-1基因与十一种灵长类生物的线粒体DNA序列进行了相似性计算和分析。比较了本方法与其它方法的结果,说明了这种方法的有效性并分析了产生误差的可能原因。
第四章给出了一种构建系统进化树的方法。该方法以我们提出的新的数量图形表示法为基础,将序列数值化,并以核苷酸替代数作为进化距离矩阵构建系统进化树。在这种方法下,我们分别构建了七种和十一种灵长类生物的进化树。比较了用PHYLIP软件以及张玉森等构建的进化树与我们构造的进化树之间区别,验证了本方法的有效性。
第五章探讨了我们的新数量图形表示法在分子生物学中的其它应用。分别给出了关于DNA序列核苷酸替代数计数方法、核苷酸含量计数方法。最后探讨了数量图形表示方法在RNA序列的图形表示和结构相似性分析方面的应用。
最后一章总结全文,阐述了我们所做的工作以及取得的成果,并提出了未来的工作方向以及需要解决的问题。