论文部分内容阅读
下一代测序(Next Generation Sequencing,NGS)技术的发展极大地促进了基因组分析、遗传病诊断、食品安全等领域的研究。NGS数据的增长速度远远超过了存储成本降低和网络带宽增加的速度,存储和传输NGS数据面临巨大挑战。有效的NGS数据压缩技术被广泛用于解决该“大数据”问题。本文对最新的NGS数据压缩技术进行系统调研和实验对比,针对最常用的NGS数据格式FASTQ提出基于参考基因组的新型压缩算法,主要工作包括:(1)对高通量DNA测序数据进行分类,针对不同压缩对象——基因组序列和NGS测序数据,分别讨论其数据存储格式及特点,并对几十种最新的DNA数据压缩算法进行综述和系统实验对比。(2)针对FASTQ数据提出基于参考基因组的压缩算法FQZip。该算法将输入FASTQ数据分割成元数据、碱基和质量分数三个数据流,并根据它们自身特点分别独立地压缩:去除元数据流中的重复片段并使用LZMA算法进行压缩;对质量分数流使用游程编码和算术编码压缩;使用匹配工具BWA将短读与参考基因组比对,提取比对结果中的碱基流表达信息并使用算术编码、霍夫曼编码及LZMA压缩。实验表明FQZip的压缩比优于最新的NGS数据压缩算法。(3)改进FQZip提出基于轻量匹配模型的压缩算法LWFQZip。LWFQZip在FQZip分解压缩的基础上使用基于kmer索引的新型轻量匹配模型将短读与参考基因组比对,输出最简洁的碱基流表达结果以供存储,比对速度比FQZip有显著提高。实验结果表明,LWFQZip在八个测试数据上获得0.144的平均压缩率,优于其它最新的无损NGS数据压缩算法。本文在基于参考基因组压缩的基础上,提出两个有效的FASTQ数据压缩算法,在压缩率上具有一定的优势,专门针对数据压缩存储提出一种新型快速序列比对方法,这些技术可以帮助缓解高通量DNA测序数据带来的存储和传输压力,为后续相关研究提供经验和借鉴。