论文部分内容阅读
近年来,高通量DNA测序技术取得了极大的进步,然而由于多种原因,测序片段中的各类错误依然不可避免,它影响了数据的准确性,因此,在测序数据处理过程中,对错误数据的过滤变得十分重要,这也是测序技术深入应用的前提和基础。本论文研究了现有的测序数据过滤方法,对现有过滤工具进行了评估验证分析;开发了一套针对454测序平台、Solexa测序平台以及SOLiD测序平台的数据过滤方法,构建了一个第二代测序数据过滤软件。 分析现有的测序数据过滤算法,按照针对的错误类型将它们归为以下四类:1)对低质量数据过滤所采用的滑动窗口法、平均质量法以及低质量碱基数统计法;2)对插入、删除以及替换错误采用的基于k串的文库构建比对算法;3)对重复序列采用的cd-hit聚类算法以及以.SAM文件为基础的MakeDuplicates算法;4)对含有adapter等的污染序列采用的文库制备比对算法以及位向量动态规划算法。我们提出了有关测序数据过滤软件的评估标准,以便更好的研究过滤算法的特性,并对现有的三个测序数据过滤软件进行了评估验证分析。 基于现有测序数据过滤方法的研究分析,开发了处理三个测序平台测序数据的过滤算法,处理流程为:1)统计分析各平台测序数据在各碱基位置的平均质量分布以及序列平均质量密度分布;2)采用滑动窗口方法、平均质量方法、低质量碱基数统计以及循环算法对三种测序数据的质量进行评估分析,并对低质量序列进行相应的剪切或过滤处理;3)将高质量数据进行聚类分析,找出每类的一致序列,根据一致序列将重复序列滤去;4)构建实验所用adapter文库,进行比对分析,对含有adapter的序列进行剪切或过滤处理。在此算法的基础上构建了针对454测序平台、Solexa测序平台以及SOLiD测序平台的测序数据过滤软件S4S。S4S主要由Perl语言编写,并整合R语言进行图形显示。 基于30组第二代测序数据进行了S4S的可靠性研究分析。这30组测序数据过滤前后数据比对率的研究表明,S4S能够对454测序平台、Solexa测序平台以及SOLiD测序平台产生的实验数据进行较好的过滤,过滤后数据的匹配率有20%~38%的提高;30组数据被过滤掉数据中所含匹配序列占原有匹配序列数的2%~33%,证明了S4S能够很好地保留匹配数据;S4S与现有的7个过滤工具的横向对比分析结果则表明,S4S能够较为有效地处理三个平台的测序数据,使得过滤前后数据的匹配率提高,过滤的假阳性率降低。