论文部分内容阅读
DNA测序技术作为获取DNA分子中生物遗传信息的手段,在生命科学研究和应用的各个领域都有着重要作用。近年来出现并高速发展的高通量测序技术,显著地提高了测序技术的数据通量并降低了单位数据量的成本,为生命科学研究者提供了巨大的帮助,并促进了生命科学的产业化应用。为了更加灵活、经济、合理地利用高通量测序技术所产出的巨大数据量,多样品并行测序技术应运而生。此技术能够将多个待测样品同时在同一区域中进行测序。通过为每个待测DNA片段添加一段标签序列,然后在测序过程中单独读取这段序列,测序后识别此序列,则可获知每个测得片段的样品归属。测序后在计算机上将每个测得序列分配给所属样品的过程,叫做多样品分解。由于测序错误的存在,多样品分解中如何尽可能准确地识别标签序列成为一个重要的问题,这一步骤的准确性直接关系到后续所有数据分析的可靠性。目前已有的多样品分解方法,在遇到高错误率低质量的测序数据时无法保证提供可靠的分解结果。 机器学习是计算机科学中近年来发展迅猛的一个子学科,它使得计算机能从经验中自己学习解决问题的方法。目前机器学习中的诸多算法已经在生物学数据分析中得到了越来越多的应用。本论文发现,由于高通量测序数据中错误模式和序列污染两个广泛存在的现象,多样品分解问题可以被视为机器学习中的文本分类问题,污染序列中的标签信息可以作为学习的训练数据。 基于以上思想,本论文课题提出并设计了一个新的,基于机器学习中的朴素贝叶斯分类器的多样本分解算法。此算法首先在待分解的目标数据中搜索可靠的接头污染序列作为训练集;然后构建一套特别设计的递归k元组构成的属性集合;对于数据中每个测得的标签序列,进行专门的属性筛选;然后使用朴素贝叶斯分类器计算每个标签属于各个样品的概率值,并根据最大后验假设做出样品归属判断;输出时还使用一定的参数来控制分配结果的错误率,保证高准确度的输出结果。并且,本论文还将上述算法通过编程实现成为一个用户友好文档详尽的应用程序——Bayexer,并免费开放给广大高通量测序的使用者。 为验证本论文所提出的算法和Bayexer程序的准确性和适用性,本论文使用了三个不同来源、不同测序仪、不同建库方式、不同样品数量、不同数据总量、不同测序质量的真实测序数据集来进行综合的评估测试。在测试中,选用了之前已有的多样品分解工具中鲁棒性最好的deML工具作为对照。测试结果表明,Bayexer分解工具在处理较高质量测序数据时与deML工具能达到类似的很高准确度,而对于较低质量数据,Bayexer的准确度与deML相比具有优势,且质量越低优势越明显。当面对测序质量极低的数据时,Bayexer仍然能提供高准确度的分解输出并且保持很高数据利用率,而deML工具已经无法提供可靠的分解结果。在对多种不同建库方式和多种测序仪的数据的适应性方面,Bayexer也表现得更加优秀。本论文还对Bayexer和deML两者在三个测试数据集上运行多样品分解的性能做了评估,结果显示Bayexer算法具有很高的效率,运行速度远快于deML。 综上,本论文所提出的多样品分解算法以及实现的Bayexer应用程序,具有目前所有同类工具中最高的分解准确度,并且运行速度快,数据适应性广,能为广大的高通量测序技术的使用者提供帮助,提高数据分析准确度以及数据利用率。