论文部分内容阅读
转录本的高通量测序(RNA-seq)为转录组的分析提供了一种有力的手段。目前已有很多拼装软件去处理RNA-seq的数据。按方法大致可分为基于参考序列和不基于参考序列(de novo)的拼装。De novo的拼装软件优势在于它们可以用于探测新的转录本,发现新的可变剪切并估计它们的峰度。然而,现有的拼装软件倾向于融合相近的序列来延长拼装的结果,而这种策略会造成一些真正的生物变异被掩盖或者错误连接了包含相同序列片段的不同转录本。除此之外,基因的表达水平在整个基因组上千差万别,使得覆盖其上的序列短段(reads)数量也有很大差异,这种差异使得区分高表达转录本的测序错误和低表达转录本变得非常困难。 本文提出了一个通过人工伙伴实现不依赖序列比对的拼装算法,叫做AFAMAM(Alignment Free Assembly Method through Artificial Mate),其目标是实现RNA-seq的高精度拼装,这里的人工伙伴是指reads上配对的K-mers。AFAMAM基于由K长序列(K-mers)构建的de Bruijn图,采用局部连接的精确匹配策略进行拼装,之后利用人工伙伴去解析de Bruijn图上的不同分支。此外,我们采用多阈值的策略去除低覆盖度和相对高覆盖度的错误K-mers,融合不同阈值下的拼装得到的转录本或其片段(contigs)作为最终拼装结果。通过对模拟数据和老鼠的胚胎干细胞测序数据进行拼装并和当前流行的de novo拼装软件进行比较,AFAMAM在保持高精确度的同时还实现了很好的灵敏度。