论文部分内容阅读
生物按照细胞类型分类有真核生物与原核生物,本文主要从真核生物与原核生物两个角度研究生物信息领域的意义所在。 随着高通量测序技术的发展,大量物种被测序并装配获得基因组序列。然而,如何快速准确地注解真核基因组的结构仍然是一个重要问题。目前注解一个真核基因组需要大量来源可靠、不同类型的参考数据源,例如相同或近似物种的蛋白质序列、EST、cDNA序列以及RNA-Seq数据。收集大量可靠的数据,并整合不同数据的分析结果,获得一致、完整的注解结果是一项耗时复杂的工作。因此,本研究第一部分提出一种快速便捷的计算工具GASS,利用相似物种的注解信息来完成一个新物种基因组的结构注解。首先将相似物种的外显子序列匹配到待注解基因组序列上,将搜寻最合理的转录物注解信息构建为一个动态规划模型,通过最短路径搜索获得最优的注解结果。为了评估GASS的性能,我们基于人类基因组注解信息,应用GASS注解猕猴基因组,将注解结果与两个猕猴公共注解数据库(RefSeq、Ensembl)比较,同时利用三个RNA-Seq测序数据验证该数据库的精确性。GASS的注解结果中包含65%的RefSeq外显子与剪切位点。GASS的敏感性高于Refseq,与Ensembl接近。同时,在基因、外显子、转录物和剪切位点层面,GASS的特异性高于Ensembl。本研究同时还发现猕猴rheMac3基因组的若干错误拼接位置,这些错误导致了RefSeq在外显子边界注解上2bp的误差,进而造成了不完整的剪切位点模式。我们通过各种不同的数据源进一步验证了该发现。 此外原核生物群落的多样性是目前研究的热点问题。基于k-tuple序列特征的Alignment-free方法研究原核生物群落多样性已经得到广泛的应用。然而背景序列建模过程是k-tuple特征方法的关键环节。先前基于定阶次马尔科夫模型存在一定缺陷,因此,寻找合适的背景序列模型具有重要意义。因此本文第二部分基于k-tuple频度分布设计了VLMC,IMM,ICM三种背景序列建模的方法。根据这三种随机模型,选取不同的微生物群落样本,初步得到了一些结果。实验说明三种模型都有一定的有效性与准确性。 真核生物的基因组注解和原核生物基因组测序数据研究,本文对对这两部分的研究依然存在很多局限性与不足,有待进一步改进。