基于精确匹配的RNA-seq序列拼装

来源 :北京大学 | 被引量 : 0次 | 上传用户:alucardlr
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
转录本的高通量测序(RNA-seq)为转录组的分析提供了一种有力的手段。目前已有很多拼装软件去处理RNA-seq的数据。按方法大致可分为基于参考序列和不基于参考序列(de novo)的拼装。De novo的拼装软件优势在于它们可以用于探测新的转录本,发现新的可变剪切并估计它们的峰度。然而,现有的拼装软件倾向于融合相近的序列来延长拼装的结果,而这种策略会造成一些真正的生物变异被掩盖或者错误连接了包含相同序列片段的不同转录本。除此之外,基因的表达水平在整个基因组上千差万别,使得覆盖其上的序列短段(reads)数量也有很大差异,这种差异使得区分高表达转录本的测序错误和低表达转录本变得非常困难。  本文提出了一个通过人工伙伴实现不依赖序列比对的拼装算法,叫做AFAMAM(Alignment Free Assembly Method through Artificial Mate),其目标是实现RNA-seq的高精度拼装,这里的人工伙伴是指reads上配对的K-mers。AFAMAM基于由K长序列(K-mers)构建的de Bruijn图,采用局部连接的精确匹配策略进行拼装,之后利用人工伙伴去解析de Bruijn图上的不同分支。此外,我们采用多阈值的策略去除低覆盖度和相对高覆盖度的错误K-mers,融合不同阈值下的拼装得到的转录本或其片段(contigs)作为最终拼装结果。通过对模拟数据和老鼠的胚胎干细胞测序数据进行拼装并和当前流行的de novo拼装软件进行比较,AFAMAM在保持高精确度的同时还实现了很好的灵敏度。
其他文献
随着世界金融市场蓬勃发展,金融创新不断深化,金融投资者和监管机构面临了越来越复杂的结构化的金融产品和关联的市场风险。因此对各种经济金融变量的相关性研究成为监管者和研
在医学上我们要对一种新的诊断方法与标准方法进行比较的时候,一般会考虑非劣性检验,在非劣性检验中我们研究的目的就是要根据预先给定的临界值证实新的诊断方法是否不会比标准
古诗是我国传统文化的精粹,经过千百年的沉淀,流传下来的能够选入小学课本里的古诗更是精华中的精华,可谓字字珠玑。它是激发学生对祖国传统文化热爱的一个切入点。而理想的
本文共有三章.   第一章,我们建立了范畴的Gr(o)bner-Shirshov基理论.作为应用,我们找到了两个重要范畴siplicial范畴和cyclic范畴的Gr(o)bner-Shirshov基并得到了siplicial
本研究主要分为两部分,在第一部分里,我们研究周期modified Benjamin-Ono(mBO)方程(6)tu+H(6)2xu=u2ux,t∈R,x∈T=R/2πZ,u(x,0)=u0的整体适定性,我们利用对应于该方程的gauge变换
现在一提起腐败,人们首先想到的是一些党政干部、国有企事业单位里负责人,滥用职权、收受贿赂、卖官鬻爵、贪恋女色等罪行,很少有人将腐败延伸到和群众距离最近的最基层干部
本文对最优控制策略以及股票关联年金(EIA)的定价进行了研究。本研究分为两个部分:  第一部分考虑保险风险模型的最优控制问题。保险公司的盈余过程用一个含债务率的扩散过程
在密码学的研究中,密码算法无疑是最核心的部分。布尔函数广泛应用于各类密码算法,在密码系统的安全性要求方面扮演者十分重要的角色。为了抵抗现有和潜在的技术对密码系统的攻
在每一个金融活动中,利率都扮演着一种基础性的作用。因此实施一个简单且可靠的利率模型极其重要。远期利率与即期利率均可以表示收益率曲线,本文在HJM的框架下通过为远期利率
生物荧光断层成像(Bioluminescence Tomography,简称BLT)是一种新兴的可用于观测和定量评价小动物体内生理和病理过程的光学分子成像技术。相比于传统的层析成像技术,BLT具有无