论文部分内容阅读
我们提出了一个用以推断生物系统发生关系的新方法——组分矢量方法.它以物种的全蛋白质组作为数据集,通过比较物种间的氨基酸短串频度差异来构建亲缘树.该方法避开了序列联配在全基因组应用中所遇到的困难和基因选择的主观性,而且仅有唯一一个"参数"——氨基酸短串的长度K,它相当于某种分辨率.基于组分矢量方法所得到的原核生物亲缘树与《伯杰系统细菌学手册》(第2版),即2003年第4次发布的细菌系统分类大纲相当一致.我们还把该方法应用到叶绿体基因组的比较以及包含人类SARS病毒的冠状病毒分类中,均得到了较好的结果.组分矢量方法的关键步骤和创新之处在于:从短串的实际出现频数中扣除了随机背景,它起到突出自然选择压力带来的偏好性的作用.本文将详细讨论有关扣除随机背景的步骤和意义,以及组分矢量方法在各类物种完全基因组中的分类上的应用.本文包含以下几个部分:第一章(引言):本章回顾系统发生学是如何从基于表型的分析过渡到分子进化研究的.第二章:本章首先详细讲述组分矢量方法的细节,然后是该方法在原核生物亲缘关系研究的应用,最后讨论扣除随机背景的作用.第三章:本章主要讨论组分矢量方法在叶绿体分类中的应用.在分类结果中,叶绿体整体作为一个大的分支,与真细菌中的蓝细菌门聚集在一起.这个结果与叶绿体的一级内共生学说相符合.第四章:使用组分矢量方法,并结合外类群的适当选取来研究冠状病毒的分类,其结果表明人类SARS病毒和以哺乳动物为宿主的第二组冠状病毒亲缘关系最近.第五章:超度规是分类学中的一个重要概念,本章将对这一概念以及如何对矩阵进行超度规化的方法作详细的介绍,还将解释超度规与阶层树状结构的等价性.第六章:在本章中,我们使用蛋白质家族取代全基因组构造原核生物的亲缘树.基于核糖体蛋白质家族与氨酰tRNA合成酶家族两组数据得到的结果都与使用全蛋白质组的结果在很大程度上相一致.第七章:我们为组分矢量方法构造了一个服务器,以使之可以在网络上提供计算服务.本章主要介绍该服务器的实现和使用方法.第八章(结论):在本章中对组分矢量方法和应用作简短的回顾,以及对该方法的展望.