基于精确匹配的RNA-seq序列拼装

来源 :北京大学 | 被引量 : 0次 | 上传用户：alucardlr

【摘要】

：

转录本的高通量测序(RNA-seq)为转录组的分析提供了一种有力的手段。目前已有很多拼装软件去处理RNA-seq的数据。按方法大致可分为基于参考序列和不基于参考序列(de novo)的

【作者】

：

邓超

【机构】

：

北京大学

【出处】

：

北京大学

【发表日期】

：

2013年期

【关键词】

：

RNA-seq序列拼装精确匹配人工伙伴数据处理拼装算法

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

转录本的高通量测序(RNA-seq)为转录组的分析提供了一种有力的手段。目前已有很多拼装软件去处理RNA-seq的数据。按方法大致可分为基于参考序列和不基于参考序列(de novo)的拼装。De novo的拼装软件优势在于它们可以用于探测新的转录本，发现新的可变剪切并估计它们的峰度。然而，现有的拼装软件倾向于融合相近的序列来延长拼装的结果，而这种策略会造成一些真正的生物变异被掩盖或者错误连接了包含相同序列片段的不同转录本。除此之外，基因的表达水平在整个基因组上千差万别，使得覆盖其上的序列短段(reads)数量也有很大差异，这种差异使得区分高表达转录本的测序错误和低表达转录本变得非常困难。　　本文提出了一个通过人工伙伴实现不依赖序列比对的拼装算法，叫做AFAMAM(Alignment Free Assembly Method through Artificial Mate)，其目标是实现RNA-seq的高精度拼装，这里的人工伙伴是指reads上配对的K-mers。AFAMAM基于由K长序列(K-mers)构建的de Bruijn图，采用局部连接的精确匹配策略进行拼装，之后利用人工伙伴去解析de Bruijn图上的不同分支。此外，我们采用多阈值的策略去除低覆盖度和相对高覆盖度的错误K-mers，融合不同阈值下的拼装得到的转录本或其片段(contigs)作为最终拼装结果。通过对模拟数据和老鼠的胚胎干细胞测序数据进行拼装并和当前流行的de novo拼装软件进行比较，AFAMAM在保持高精确度的同时还实现了很好的灵敏度。

其他文献

基于copula方法的相关性研究和可转债定价

随着世界金融市场蓬勃发展，金融创新不断深化，金融投资者和监管机构面临了越来越复杂的结构化的金融产品和关联的市场风险。因此对各种经济金融变量的相关性研究成为监管者和研

学位

copula函数偏微分方程不规则分块可转债券美国破产法定价模型

Two Bayesian approaches in non-inferiority test based on matcheD-pairs data

在医学上我们要对一种新的诊断方法与标准方法进行比较的时候，一般会考虑非劣性检验，在非劣性检验中我们研究的目的就是要根据预先给定的临界值证实新的诊断方法是否不会比标准

学位

贝叶斯因子配对样本非劣性检验后验概率

例议小学古诗教学的兴趣激发

古诗是我国传统文化的精粹,经过千百年的沉淀,流传下来的能够选入小学课本里的古诗更是精华中的精华,可谓字字珠玑。它是激发学生对祖国传统文化热爱的一个切入点。而理想的

期刊

小学古诗教学传统文化学生学习学生阅读精华文化热切入点中国兴趣理想课本精粹华中沉淀

范畴,pre-李和非结合代数的Gröbner-Shirshov基

本文共有三章.　　第一章，我们建立了范畴的Gr(o)bner-Shirshov基理论.作为应用，我们找到了两个重要范畴siplicial范畴和cyclic范畴的Gr(o)bner-Shirshov基并得到了siplicial

学位

simplicial范畴cyclic范畴Gr(o)bner-Shirshov基pre-李代数泛包络右对称代数反交换代数

导数Schr?dinger型方程的若干研究

本研究主要分为两部分，在第一部分里，我们研究周期modified Benjamin-Ono(mBO)方程(6)tu+H(6)2xu=u2ux，t∈R，x∈T=R/2πZ,u(x，0)=u0的整体适定性，我们利用对应于该方程的gauge变换

学位

数学分析导数方程散射算子整体适定

谨防“泥鳅”翻大浪

现在一提起腐败,人们首先想到的是一些党政干部、国有企事业单位里负责人,滥用职权、收受贿赂、卖官鬻爵、贪恋女色等罪行,很少有人将腐败延伸到和群众距离最近的最基层干部

期刊

基层干部干部监督党支部书记收受贿赂村党支部企事业单位经济腐败基层组织农村基层政权干部职务

最优控制策略以及股票关联年金(EIA)的定价

本文对最优控制策略以及股票关联年金（EIA）的定价进行了研究。本研究分为两个部分：　　第一部分考虑保险风险模型的最优控制问题。保险公司的盈余过程用一个含债务率的扩散过程

学位

金融市场再融资策略风险模型最优控制

布尔函数的密码学性质分析与应用

在密码学的研究中，密码算法无疑是最核心的部分。布尔函数广泛应用于各类密码算法，在密码系统的安全性要求方面扮演者十分重要的角色。为了抵抗现有和潜在的技术对密码系统的攻

学位

布尔函数代数免疫度代数攻击弹性函数MAI函数构造密码学性质

多因子HJM模型在中国国债收益率曲线研究中的应用

在每一个金融活动中，利率都扮演着一种基础性的作用。因此实施一个简单且可靠的利率模型极其重要。远期利率与即期利率均可以表示收益率曲线，本文在HJM的框架下通过为远期利率

学位

远期利率多因子HJM模型主成分分析收益率曲线中国国债

生物荧光断层成像的重建算法研究

生物荧光断层成像(Bioluminescence Tomography，简称BLT)是一种新兴的可用于观测和定量评价小动物体内生理和病理过程的光学分子成像技术。相比于传统的层析成像技术，BLT具有无

学位

生物测定荧光成像重建算法近似方程

基于精确匹配的RNA-seq序列拼装

其他学术论文