真核生物基因组注解及原核生物基因组测序数据研究

来源 :厦门大学 厦门大学 | 被引量 : 0次 | 上传用户:yanlj007
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
生物按照细胞类型分类有真核生物与原核生物,本文主要从真核生物与原核生物两个角度研究生物信息领域的意义所在。  随着高通量测序技术的发展,大量物种被测序并装配获得基因组序列。然而,如何快速准确地注解真核基因组的结构仍然是一个重要问题。目前注解一个真核基因组需要大量来源可靠、不同类型的参考数据源,例如相同或近似物种的蛋白质序列、EST、cDNA序列以及RNA-Seq数据。收集大量可靠的数据,并整合不同数据的分析结果,获得一致、完整的注解结果是一项耗时复杂的工作。因此,本研究第一部分提出一种快速便捷的计算工具GASS,利用相似物种的注解信息来完成一个新物种基因组的结构注解。首先将相似物种的外显子序列匹配到待注解基因组序列上,将搜寻最合理的转录物注解信息构建为一个动态规划模型,通过最短路径搜索获得最优的注解结果。为了评估GASS的性能,我们基于人类基因组注解信息,应用GASS注解猕猴基因组,将注解结果与两个猕猴公共注解数据库(RefSeq、Ensembl)比较,同时利用三个RNA-Seq测序数据验证该数据库的精确性。GASS的注解结果中包含65%的RefSeq外显子与剪切位点。GASS的敏感性高于Refseq,与Ensembl接近。同时,在基因、外显子、转录物和剪切位点层面,GASS的特异性高于Ensembl。本研究同时还发现猕猴rheMac3基因组的若干错误拼接位置,这些错误导致了RefSeq在外显子边界注解上2bp的误差,进而造成了不完整的剪切位点模式。我们通过各种不同的数据源进一步验证了该发现。  此外原核生物群落的多样性是目前研究的热点问题。基于k-tuple序列特征的Alignment-free方法研究原核生物群落多样性已经得到广泛的应用。然而背景序列建模过程是k-tuple特征方法的关键环节。先前基于定阶次马尔科夫模型存在一定缺陷,因此,寻找合适的背景序列模型具有重要意义。因此本文第二部分基于k-tuple频度分布设计了VLMC,IMM,ICM三种背景序列建模的方法。根据这三种随机模型,选取不同的微生物群落样本,初步得到了一些结果。实验说明三种模型都有一定的有效性与准确性。  真核生物的基因组注解和原核生物基因组测序数据研究,本文对对这两部分的研究依然存在很多局限性与不足,有待进一步改进。
其他文献
矢量变换控制是以交流电动机的双轴理论为依据,在同步旋转坐标系中把定子电流矢量分解为两个分量:一个分量与转子磁链矢量重合,称为励磁电流分量;另一个分量与转子磁链矢量垂直,称
可编程片上系统SOPC在一个硅片上实现整个系统的功能,并且具备软硬件可编程的能力,是一种近年发展起来的嵌入式系统。ZYNQ芯片是典型的SOPC,芯片上集成双核ARM与FPGA,能够实
视觉目标跟踪为计算机视觉的核心研究内容,在军事和民用的众多领域有着广泛应用,具有重要的研究价值。近十多年来,随着计算机技术飞速发展,目标跟踪得到了广泛的研究,涌现出许多跟
倒立摆的控制是控制理论应用的一个典型范例。倒立摆系统作为一个非最小相位、强藕合、多变量的绝对不稳定非线性系统,通常被用来检验控制策略的有效性;同时,由于倒立摆系统控制
随着信息技术的快速发展,数据量呈现爆炸性的增长,存储系统中的文件种类各种各样,文件数目不断增多,如何应对企业存储峰值和机密数据的保存成为当前急需解决的一个问题。混合
金属热处理炉是冶金行业中重要的组成部分,热处理炉的控制水平直接影响着产品的质量和能耗。随着工业自动化水平的提高,降低生产成本、提高品质、减少污染已成为企业改造的重要
在海上巡逻和海上作战过程中,由于水雾散射、海面波光的反射以及海空背景低照度的影响,常常使得成像设备拍摄出的照片带有很大的模糊和目标细节的丢失,这对海上目标的识别和跟踪
视觉跟踪定位技术是船舶跟踪与三维定位技术中的一个分支,该技术常采用摄像机作为图像采集模块,将实时的位置信息反馈到跟踪定位系统中进行计算处理。但由于轮船发动机以及舰