论文部分内容阅读
自从上个世纪80年代以来,随着基因测序工作的逐渐完成,对海量数据进行有效的分析利用是后基因组时代的生物信息学家们所面临的巨大挑战。自从1977年,内含子第一次被发现以来,越来越多的生物信息学家开始了基因结构的研究。为什么真核生物的基因中有内含子,而原核生物中没有?在生物的进化过程中,内含子是一开始就存在于最古老的生物体中的,还是伴随着原核生物和真核生物的分化,而产生的?为什么越高等的生物体中,内含子序列所占的比重越来越大?内含子进化的机制是怎样的?它们从何而来?
本文的研究主要针对内含子的进化机制。为了进行大规模的序列比对,以及进行相应的统计分析,设计了一种较为快捷的数据库容错检索算法。通过对大肠杆菌,酵母,拟南芥,线虫,果蝇和人的基因序列进行比较,我们发现较为高等的生物,如人,拟南芥,线虫,果蝇的内含子序列和酵母的外显子序列很强的相似性,而且这种相似性甚至高于与这些生物本身的外显子序列的相似性。然而,大肠杆菌作为原核生物,其基因序列和上述真核生物的内含子序列并没有明显的相似性。然后,基于数据库容错检索算法,建立了相应的统计模型。通过对随机序列所作的统计分析,说明这个发现具有很强的统计显著性。