蛋白质鉴定中数据库搜索引擎效率优化及结果验证研究

来源 :中国科学院计算技术研究所 | 被引量 : 0次 | 上传用户:lz251667032
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
质谱技术是当前蛋白质鉴定研究中使用最广泛的技术.而基于串联质谱鉴定肽序列进而鉴定蛋白质序列的数据库搜索引擎是最常使用的工具之一.本文针对数据库搜索引擎应用背景,以构建高通量、高精度的蛋白质鉴定系统为目标,系统地研究了引擎的效率优化问题和肽鉴定结果验证问题,提出了若干关键技术来提高搜索引擎的高通量数据处理能力以及最后鉴定结果的可靠性. 首先,本文提出了一种为蛋白质鉴定服务的数据库索引技术IndexToolkit,用以解决直接检索FASTA格式数据库时的低效问题.该技术针对数据库引擎中的候选肽检索问题,以质量值为索引键值,通过表格、倒排文件分块技术等组织方法,兼顾质量值序列和肽序列在数据库引擎系统性能中的不同作用,为提升候选肽查询速度并提供了一个新框架.该框架下,给定一个质量值和质量误差阈值后,可以快速得到落入该质量窗口内的所有候选肽序列.在我们自主开发的搜索引擎pFind上的应用实践表明,该技术能有效提高候选肽序列检索效率,索引前后处理速度提升约一个量级(10倍).此外,针对单机计算平台日渐多CPU多核的趋势,本文突破以往搜索引擎常采用的串行体系结构,提出了一个整合索引查询、多线程计算和最新设计的批量数据处理流程模型"发车模式"的新架构.该架构下,本文充分发掘软件的并行性,并把并行的理念融入到系统的设计和实现中,使搜索引擎处理性能在索引加速的基础上还可提升约10倍. 基于搜索引擎pFind的正确/错误结果分布的统计分析,本文提出了一种针对pFind肽鉴定结果中的e-value进行自动化验证的方法.根据观察到的目标一诱饵反转序列数据库上查询结果的分布情况,本文提出采用高斯混合模型(GMM)和期望最大化(EM)算法计算肽鉴定结果的正确性概率和假阳性率的概率统计模型.该肽鉴定验证模型先利用GMM方法计算出正确结果(正向序列)中的两个正态分布(分别对应于高可信度序列和低可信度序列)各自的参数,拟合出正确结果分布曲线.然后,采用期望最大化算法学习得到错误结果(反向序列)分布的参数和曲线.最后根据这三个分布计算出每条序列的可能正确的概率以及假阳性率.本文模型的一个优势就是对于数据库中正、反向序列长度不一致的情况也能自适应地调整分布参数,.灵活准确地评估每条鉴定序列的正确性概率.因此本文模型能够解决pFind系统中一直难以解决的小数据库上假阳性率计算问题.实验表明,该模型为解决小数据库上的肽鉴定结果验证以及假阳性率计算提供了一条有效途径. 针对现有搜索引擎的不足,本文给出新的自主研发的基于串联质谱数据的数据库搜索鉴定蛋白质序列软件pFind.pFind搜索引擎的突出特点是模块工具化和具备良好用户扩充性.本文给出了pFind的核心模块研究工作,同时详细剖析pFind各个版本(本地版、网络版、集群并行计算版本等)的结构框架和实现技术.通过在LTQ和QTOF质谱数据集上的实验表明,在相同的假阳性率条件下,pFind软件的肽鉴定准确度和处理速度均超过目前流行的商业软件SEQUEST.
其他文献
视频监控在道路交通、社会治安和安全生产等领域取得了广泛的应用,视频监控产业进入了高速发展的时期。视频监控系统的两个核心技术就是高效稳定的视频编码算法和设备。基于DS
学位
云计算通过IT技术的公用和高度集中,实现大规模计算资源、存储资源、数据资源的高度共享。云计算采用复杂的系统架构、外包的服务模式、多租户的共享环境以及分布式及开放性
在面向服务的网格系统中,服务是一种自治的、跨平台的计算行为集合.由于服务自身特点以及执行环境等诸多因素的限制,服务调试是一项非常困难的任务.在正常执行环境下,根据实
研究表明驱动中的漏洞是Linux内核安全的一个主要威胁,它包含多种类型的漏洞,如整数错误、内存错误和API误用等,可能引发提权、拒绝服务等高危情况。然而,一般的程序分析技术
随着通信技术和计算技术的发展,无线网络的种类越来越多。作为一种具有固定基础设施结构的无线网络,无线局域网络(WLAN)得到了越来越广泛的应用,成为无线技术领域研究的一个热点
随着互联网技术的迅猛发展,软件行业也开始出现介于合法商业软件和病毒木马软件之间的流氓软件,它们具有用户需要的一些正常软件功能,但同时也具备电脑病毒和黑客软件的部分特征
学位
本文首先针对帧间亮度变化剧烈时运动补偿预测效率会大大降低这一情况,讨论了适应于帧间亮度变化的运动补偿预测方法.随后将主要就可伸缩编码中的空域可伸缩功能的实现进行研
随着信息技术的迅猛发展,网格技术、XML技术、语义网技术等全新IT技术的涌现,使得海量、分布式科学数据的无缝融合和处理成为可能。各种信息技术不断应用于科学研究的不同领域,
学位
在计算机中生成满足人们需要的三维人体运动是一项长期而艰巨的任务.近年来,随着计算机动画、虚拟现实、游戏、影视等产业的不断发展,人们对研究三维空间中的人体运动产生了
随着互联网硬件和数据信息资源规模高速膨胀,支持大规模网络环境下可扩展的资源管理和共享面临挑战.结构化对等网络支持大规模异构网络环境下的高效查询路由,可以作为底层平