二代测序数据和酶切图谱数据混合拼接算法研究

来源 :中国科学院大学 | 被引量 : 0次 | 上传用户:chenger_123
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
基因组是生物体中携带遗传信息的遗传物质的总和,大部分生物的基因组由DNA组成。DNA分子是由脱氧核糖核苷酸(A腺嘌呤、G鸟嘌呤、T胸腺嘧啶、C胞嘧啶)连接成的碱基序列。对基因组的研究有助于提高人们对各种生命现象的认识,而基因组研究的第一步就是获取基因组碱基序列信息。由于测序技术的限制,测序仪器每次只能获得DNA分子上较短子序列(几百bp到上千bp)的碱基信息,从而使得以测序数据为输入获取原始基因组序列的基因组序列拼接算法研究成为基因组研究中一个重要步骤。  针对各种测序仪器获得数据特性不同,研究人员提出了各种与之相适应的拼接算法。本文主要关注以高通量、低成本、短读段为特点的二代测序数据(Next GenerationSequencing)和以超长读段为特点的酶切图谱数据(Optical Mapping)。现有的基于以上两种数据的拼接方法中存在一些弊端:  (1)单独使用二代数据的方法,由于二代数据自身数据读段短的原因,很难跨过长的重复序列区域,导致拼接结果短;  (2)现有的使用酶切图谱数据和二代数据的混合拼接方法多基于联配“搭桥”的策略,没有使用二代数据拼接过程中已有的连接信息,拼接结果存在空位(gap)。  本课题为克服现有缺点,提出了全新的基于二代数据和酶切图谱数据的混合拼接策略,获得以下成果:  (1)提出了基于蒙特卡洛树搜索(MCTS,Monte Carlo Tree Search)的路径搜索算法  本文将给定酶切图谱数据获取其对应碱基路径的问题,转化为在二代拼接图中的路径寻找问题。通常使用的局部最优的贪心方法得到路径的准确率过低;而全局最优的暴力搜索方法在运行时间上难以承受。本文采用蒙特卡洛树搜索算法求解该问题,获得了很好的运行时间和准确率上的平衡。在模拟数据集上,该算法获得了优于暴力搜索方法约十倍的运行效率,而准确率只有稍许下降;相对贪心方法,该算法则在运行时间可以承受的基础上,获得五倍以上的准确率提升。  (2)开发了基于二代测序数据和酶切图谱测序数据的混合拼接软件nanoARCS2  nanoARCS2以二代数据和酶切图谱数据为输入获取最终的拼接结果。算法流程分为预处理、路径搜索和后处理三步。算法充分考虑了两种数据各自的读长,通量以及错误类型等特点,融合了两种数据各自的优势,在测试数据集上得到的拼接结果contigN50是只使用二代数据拼接得到结果的2.1倍。
其他文献
决策支持系统、数据挖掘技术目前已得到了广泛的应用,作为这两者的信息来源数据仓库和数据集市技术也得到了相应的发展。数据仓库和数据集市的重要性在于它为决策支持系统和数
目前计算机软件的规模越来越大,复杂度也不断提高,软件错误造成的后果也就越来越严重,软件的质量和可靠性已引起人们的高度重视。在现代软件工程中,软件开发的各个阶段,都应进行相
该文主要是从这两方面问题着手,从网络形态上和预测模型结构做出相应的改进,以期望提高预测的准确率.对于网络形态,考虑使用递归神经元网络作为预测模型的主体,通过对递归神
该论文首先对Linux的进程结构、进程调度等问题进行了分析.并附带说明了Windows 2000的相关内容.接着该论文对Linux操作系统的进程间通信机制进行了全面深入的论述.包括信号,
随着许多新兴的计算模式的广泛应用(移动计算、对等计算、网格计算等),当前的网络安全系统呈现出新的问题:首先,这些计算模式中网络是自组织的、不依赖网络拓扑结构的;其次,
该文主要研究决策树和神经网络模型.该课题是在课题组前期完成的HDC(highway Decision Center)数据仓库平台的基础上进行的,在对CART决策树进行了深入研究分析的基础上,针对
互联网时代信息爆炸式增长,面向语义和问答的智能搜索引擎的发展更加依赖于知识库的构建。海量信息存在于互联网大量异质数据源中,其中,半结构化特点的中文在线百科为知识库的构
在计算机视觉领域,获取现实世界物体的精细三维模型是许多学者的研究目标。精细三维模型既能满足科学研究的需要,又能满足一些实际应用的需求,比如计算机辅助几何设计、医学图像
Web Services是XML、SOAP、WSDL和UDDI四种技术的汇合, 采用Web Services技术的目的是使应用功能以标准的和可编程的方式在整个互联网上可用.这不但使原本只能通过严格的专用
随着Internet/Intranet技术和多媒体技术的发展,远程教育逐步显示出其潜在的优势。远程考试是远程教学的一个重要组成部分,随着教学内容的不断丰富和参加远程教育人群的增加,要求