高通量DNA测序数据无损压缩研究

被引量 : 0次 | 上传用户:dhtmlbox
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
下一代测序(Next Generation Sequencing,NGS)技术的发展极大地促进了基因组分析、遗传病诊断、食品安全等领域的研究。NGS数据的增长速度远远超过了存储成本降低和网络带宽增加的速度,存储和传输NGS数据面临巨大挑战。有效的NGS数据压缩技术被广泛用于解决该“大数据”问题。本文对最新的NGS数据压缩技术进行系统调研和实验对比,针对最常用的NGS数据格式FASTQ提出基于参考基因组的新型压缩算法,主要工作包括:(1)对高通量DNA测序数据进行分类,针对不同压缩对象——基因组序列和NGS测序数据,分别讨论其数据存储格式及特点,并对几十种最新的DNA数据压缩算法进行综述和系统实验对比。(2)针对FASTQ数据提出基于参考基因组的压缩算法FQZip。该算法将输入FASTQ数据分割成元数据、碱基和质量分数三个数据流,并根据它们自身特点分别独立地压缩:去除元数据流中的重复片段并使用LZMA算法进行压缩;对质量分数流使用游程编码和算术编码压缩;使用匹配工具BWA将短读与参考基因组比对,提取比对结果中的碱基流表达信息并使用算术编码、霍夫曼编码及LZMA压缩。实验表明FQZip的压缩比优于最新的NGS数据压缩算法。(3)改进FQZip提出基于轻量匹配模型的压缩算法LWFQZip。LWFQZip在FQZip分解压缩的基础上使用基于kmer索引的新型轻量匹配模型将短读与参考基因组比对,输出最简洁的碱基流表达结果以供存储,比对速度比FQZip有显著提高。实验结果表明,LWFQZip在八个测试数据上获得0.144的平均压缩率,优于其它最新的无损NGS数据压缩算法。本文在基于参考基因组压缩的基础上,提出两个有效的FASTQ数据压缩算法,在压缩率上具有一定的优势,专门针对数据压缩存储提出一种新型快速序列比对方法,这些技术可以帮助缓解高通量DNA测序数据带来的存储和传输压力,为后续相关研究提供经验和借鉴。
其他文献
分析了THKSS-D型信号与系统实验箱的高通滤波器实验模块,用S平面分析法给出其幅频特性和相频特性,根据通频带定义给出该滤波器截止频率,对有源和无源高通滤波器进行比较,并用
适应信息经济和高科技产业化发展起来的IT企业,在显示其蓬勃的生机和活力的同时,其淘汰率也非常高。探讨如何正确认识IT企业,按照IT企业特有的内在特征和规律来组建和驾驭IT
对647名大学生身体自尊、运动中目标取向及主观锻炼体验等指标进行测量,研究发现,身体自尊对积极幸福感、心理烦恼与疲劳的预测都达到了显著性,自我定向不能够预测积极幸福感,任
随着素质教育改革的不断推进,作为小学体育教育的重要组成部分——小学课间操也需要不断与时俱进,对其内容进行不断创新,注重结合小学生的身心发育特征进行创编,以提高小学生
服饰是民族识别的一项重要标准。楚国服装属于华夏服装系统中的一个地区衍生性和个性特征较强的支系统。楚国丝麻的织、染、缋、绣技艺代表了先秦时期的最高水平,其丝织物是
习近平总书记在内蒙古考察时强调,党内法规不少,主要问题在于执行不力,有的是缺乏执行能力,有的是缺乏执行底气。要强化法规制度执行,不能打折扣。强化党内法规制度执行,提升执行力
报纸
盈余管理正在逐渐成为中国证券市场乃至资本市场中备受关注的热门问题。盈余信息在公司决策和投资者决策时发挥着基础性作用,其重要性不言而喻,投资者对于上市公司披露的盈余
煤变质程度是控制煤储层物性的关键因素,不同煤阶煤储层孔裂隙发育特征存在较大差异。以鄂尔多斯盆地东缘山西组煤层为例,基于SEM、荧光显微观察、压汞、低温液氮吸附、低场
面对激烈的市场竞争,企业也不断的应用各种技术手段‘武装’自己,以提升自己的产品和服务质量、扩展销售渠道。呼叫中心CRM系统的应用普及,也反映出企业正在向‘以客户为中心
<正>历史上动乱的年代,势必会产生各种矛盾,而这种矛盾直接反映到艺术上就是艺术派别之争。明末清初,以画坛正宗为代表的"四王"和游离于正宗之外的"四僧",代表了清初画坛的两