基于机器学习的高通量测序数据多样品分解算法研究

来源 :中国科学院大学 | 被引量 : 0次 | 上传用户:sheng285292970
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
DNA测序技术作为获取DNA分子中生物遗传信息的手段,在生命科学研究和应用的各个领域都有着重要作用。近年来出现并高速发展的高通量测序技术,显著地提高了测序技术的数据通量并降低了单位数据量的成本,为生命科学研究者提供了巨大的帮助,并促进了生命科学的产业化应用。为了更加灵活、经济、合理地利用高通量测序技术所产出的巨大数据量,多样品并行测序技术应运而生。此技术能够将多个待测样品同时在同一区域中进行测序。通过为每个待测DNA片段添加一段标签序列,然后在测序过程中单独读取这段序列,测序后识别此序列,则可获知每个测得片段的样品归属。测序后在计算机上将每个测得序列分配给所属样品的过程,叫做多样品分解。由于测序错误的存在,多样品分解中如何尽可能准确地识别标签序列成为一个重要的问题,这一步骤的准确性直接关系到后续所有数据分析的可靠性。目前已有的多样品分解方法,在遇到高错误率低质量的测序数据时无法保证提供可靠的分解结果。  机器学习是计算机科学中近年来发展迅猛的一个子学科,它使得计算机能从经验中自己学习解决问题的方法。目前机器学习中的诸多算法已经在生物学数据分析中得到了越来越多的应用。本论文发现,由于高通量测序数据中错误模式和序列污染两个广泛存在的现象,多样品分解问题可以被视为机器学习中的文本分类问题,污染序列中的标签信息可以作为学习的训练数据。  基于以上思想,本论文课题提出并设计了一个新的,基于机器学习中的朴素贝叶斯分类器的多样本分解算法。此算法首先在待分解的目标数据中搜索可靠的接头污染序列作为训练集;然后构建一套特别设计的递归k元组构成的属性集合;对于数据中每个测得的标签序列,进行专门的属性筛选;然后使用朴素贝叶斯分类器计算每个标签属于各个样品的概率值,并根据最大后验假设做出样品归属判断;输出时还使用一定的参数来控制分配结果的错误率,保证高准确度的输出结果。并且,本论文还将上述算法通过编程实现成为一个用户友好文档详尽的应用程序——Bayexer,并免费开放给广大高通量测序的使用者。  为验证本论文所提出的算法和Bayexer程序的准确性和适用性,本论文使用了三个不同来源、不同测序仪、不同建库方式、不同样品数量、不同数据总量、不同测序质量的真实测序数据集来进行综合的评估测试。在测试中,选用了之前已有的多样品分解工具中鲁棒性最好的deML工具作为对照。测试结果表明,Bayexer分解工具在处理较高质量测序数据时与deML工具能达到类似的很高准确度,而对于较低质量数据,Bayexer的准确度与deML相比具有优势,且质量越低优势越明显。当面对测序质量极低的数据时,Bayexer仍然能提供高准确度的分解输出并且保持很高数据利用率,而deML工具已经无法提供可靠的分解结果。在对多种不同建库方式和多种测序仪的数据的适应性方面,Bayexer也表现得更加优秀。本论文还对Bayexer和deML两者在三个测试数据集上运行多样品分解的性能做了评估,结果显示Bayexer算法具有很高的效率,运行速度远快于deML。  综上,本论文所提出的多样品分解算法以及实现的Bayexer应用程序,具有目前所有同类工具中最高的分解准确度,并且运行速度快,数据适应性广,能为广大的高通量测序技术的使用者提供帮助,提高数据分析准确度以及数据利用率。
其他文献
本实验利用原子力显微镜观察小鼠耐不同浓度氨甲喋呤(MTX)的3T3细胞及人卵巢癌细胞UACC-1598中DMs的结构特点。为研究DMs复制的具体时间,本实验用双胸苷同步化法使UACC-1598细
随着社会经济的突飞猛进,企业发展也成直线上升的模式.企业在不断扩大的同时也迎来了更多严峻的挑战.面对这样的状况,为了更好地面对这些挑战以及激烈的市场竞争,开展工商管
随着经济社会的持续快速发展,极大地促进了油田企业建设与管理水平的飞跃.在当前背景下,如何强化油田企业综合保卫工作,成为业内广泛关注的焦点问题之一.基于此,本文首先介绍
企业的档案管理,相比较其他的文案收集整理更加系统化以及精细复杂,就目前国内现有企业来分析,在档案管理的问题上还是普遍存在一些问题需要我们去深入研究,积极找到相应对策
随着世界化石能源的即将开发殆尽以及环境恶化问题的日益严重,世界各国都加入了寻找和开发新能源的行列。太阳能资源作为一种分布面广,取之不竭的绿色可再生能源成为了人们研究的重点。自1954年贝尔实验室研制出第一块光伏电池以来,光伏离网和并网技术也在日益更新。特别是光伏并网技术的发展已经使得越来越多的光伏设备投入了运行。目前光伏电池的造价还比较高,这就要求我们能够更好的认识和研究光伏系统,获得更好的稳定性
在世界一些多雾的山地森林生态系统中,雾和雾降水一直被认为是一种极其重要的水文和化学输入项,其生态效应是多方面的。与世界其它热带雨林分布地区相比,地处热带北缘西南季风气
近年来,随着社会经济的快速发展,人们的工资水平也在逐步增加,为工资档案管理带来了全新的挑战和要求,单位工资审批、工资下发以及工资管理等普遍出现效率低下现象.医院工资
新时代下,国有企业将面临新的机遇和挑战,对企业领导班子和干部队伍建设提出了新的、更高的要求.党的十八大以来,习近平总书记先后对国有企业选人用人工作提出了新的要求和标
技改项目档案是指在技改项目建设中形成的前期、施工、勘察设计及竣工验收等各种形式,具有保存价值的文件材料.它记录着技改项目工程管理过程和工程实体.在企业技术改造项目
高校运动队的建设是我国高校工作的重要组成部分,关于高校业余运动队动队的发展该如发展,首先应对高校业余运动队有一个正确的认识,只有将高校业余训练看作体育教学的延续,并