不基于比对的序列比较方法在二代测序数据上的应用

来源 :北京大学 | 被引量 : 0次 | 上传用户:zhensa9d
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
二代测序技术(NGS)在过去几年得到了迅速发展,并产生了巨大的短读取(short reads)数据。然而,拼接成百上千万的短读取数据是很困难的,尤其是对于没有参考序列的物种和宏基因组。因此,借助拼接技术比较两个物种的相关性是一个巨大的挑战。在这里,我们对三个不基于比对(Alignment-free)的序列比较统计量,D2,DS2和D*2,进行了在二代测序数据上的推广,进而研究基因组的关系。这三个统计量不依赖于拼接,仅仅利用数据中k长字符串(k-tuple)的信息。我们利用模拟数据讨论了k的大小、序列的长度、测序深度和测序错误对统计量探测物种相关性能力的影响。此外,我们提出了经过归一化的统计量d2,dS2和d*2,,并用它们对两种类型的13种植物的二代测序样本进行聚类。最后,我们应用统计量d2,dS2和d*2以及它们在马氏模型下的推广形式,检验测宏基因组样本之间的关系,从而揭示环境变量对宏基因组的影响。模拟数据和实际数据的研究均表明,dS2和d*2在探测样本相关性上有效。
其他文献
众所周知,现实生活中包含着许多数学问题、数学思想和数学方法.只有当数学与学生的现实生活密切结合的时候,我们才会发现数学的重要性,才能激发学生学习数学和解决数学问题的
全文分三章:第一章是绪论.首先简单介绍了线性奇异系统的独特性质,然后阐述奇异系统H控制理论的发展及目前存在的问题.第二章研究了一类奇异系统的状态反馈H控制问题,首先,在
我国现代职业院校的发展逐渐的完善,它可以为国家提供更多的专业人才.汽车检测与维修技术专业在区域经济中,为汽车后市场的行业提供大量的人才支持.为提升专业人才培养的质量
教师是教育发展的根本力量,教师的素质提高和专业成长是学校发展的动力所在.在素质教育和新课程改革不断深化的背景下,教师会遇到许多依靠过去经验和理论难以解释和解决的问
碰撞振子是非光滑动力系统中一类重要模型,本文讨论弹性碰撞振子的动态行为,主要考虑带权位势超线性碰撞振子的碰撞解.文章分两部分:带定号权位势超线性碰撞振子的周期碰撞解的
在现代化的教学过程当中,教师如果在教学的过程当中设计一些小型模拟的教具来进行教学,那么这样不仅可以提高学生学习高中物理学科的兴趣,更可以提升学生对于高中物理学科知
针对流水车间(Flow-Shop)作业排序问题,研究人员比较了几种现有的解法.通过调试和 分析,该文提出了两种改进的自适应遗传算法并给出了两种编码、解码方案.实验数据表明,改进
该文共分四个部分,矣一部分为预备知识,为方便后面各节的引用,我们介绍了分次环的基本知识;Smash积;环的优扩张;Bass环(Wemiartin环)的理论背景及分次Morita对偶等知识.第二,
在生活中处处可以看到美的影子,两者存在着息息相关,十分密切的关系.如今,幼儿园的美术教育中存在着脱离生活的现象,而幼儿园美术教育的生活化是以联系美术教育与实际生活,让
棉铃的生长发育与气温的关系极为密切。为了给培育丰产稳产优质棉提供依据,我们于1985年在库尔勒农二师二十八团农科所进行了本试验。 供试材料为海岛棉优良新品系77-18-235