基于离子索引的交联二肽鉴定引擎pLink2.0

来源 :中国科学院大学 | 被引量 : 0次 | 上传用户:ewtfgtwegv
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
交联质谱技术为研究蛋白质间的相互作用与蛋白质的三维结构提供了新的技术手段。交联质谱技术的主要研究对象是交联二肽,其交联位点与交联剂臂长为相互作用关系的建模与三维结构的预测提供了计算约束条件,具有重要意义。  交联二肽鉴定通常使用基于串联质谱技术的数据库搜索方法。计算的难点主要有两方面,一方面,肽段对组合爆炸,鉴定效率低;另一方面,自动化过滤的方法有待改进,期望进一步提升鉴定的灵敏度。本文调研分析了目前多数交联鉴定引擎中所采用的穷举式与开放式搜索低效的原因,提出了一种行之有效的离子索引的加速策略,多个数据集测试后都有至少10倍以上的加速。交联二肽的评价方面,最新文献中使用的都是离线训练SVM的方法,推广性值得怀疑。本文尝试利用基于半监督学习在线训练SVM的方法,提升了灵敏度。综合以上两个新方法,本文提出了全新的交联二肽鉴定引擎pLink2.0。具体来讲,本文的创新主要有以下三个方面:  第一,本文利用离子索引技术实现了常规特异性多酶切的交联二肽鉴定加速。搜索过程分两步:第一步,用离子索引与粗打分过滤两条肽段中匹配较好的一条,我们称之为α肽,保留前10名;第二步,每张谱选前5名的α肽与谱图母离子质量求差,将该质量作为剩下的β肽的质量,查询肽段索引后与α肽组合成肽段对进行细打分。  鉴定中加速的关键是预先用碎片匹配数过滤匹配差的肽段,减少粗打分的次数。文中精心设计了离子索引的存储结构。索引的词典采用数组直接寻址,数组的下标表示索引碎片离子质量整数化的值,数组的内容存储倒排项的起始位置与结束位置。索引的倒排项中存储每个碎片离子对应肽段在蛋白质序列库中的位置,具体是起始位置与肽段长度。索引的创建方法通过两遍扫描酶切序列,利用计数排序的方法完成。索引查询能够通过碎片离子质量直接寻址,统计每条肽段的碎片匹配数。过滤α肽时,先用碎片匹配数筛选,而后用谱图的母离子质量与位点的合法性检验以及粗打分进一步筛选。  鉴定保证灵敏度的关键是优化谱峰提取算法,降低查询中的随机谱峰比例,同时用更具区分度的粗打分过滤。本文优化了谱峰提取算法,统计了二硫键标注集中,普通y离子、交联y离子、普通b离子、交联b离子的质量分布与匹配比例,将未改进的朴素谱峰提取算法中平均至少75%的随机查询谱峰比例降低到了45%。在两个标注集上都做测试后,仅仅通过碎片离子匹配数过滤,前100名的灵敏度分别从93.5%和94.9%提升至98.9%和98.4%。进一步,经过后面的质量、位点检查、粗打分过滤后,前5名的灵敏度都达到了99.9%以上。β肽的筛选不会再有灵敏度损失,经过组合细打分后,整个的搜索阶段,标注集的灵敏度都在99%以上。  第二,本文实现了基于半监督学习的多特征重打分方法,提升了鉴定的灵敏度。半监督学习中选择训练集与特征的提取是关键。训练集的选择依赖于正反库策略。具体来讲,通过正反库策略估计假发现率FDR,然后将FDR≤1%的正库结果作为正样本,而所有反库结果做负样本。本文提取了9个特征,包括5个单谱特征,4个多谱特征。文中分析发现,本文提出的两个交联特有的单谱特征彼此间有很好的互补性,同其它单谱特征间的关系也是如此。然而,另外的3个单谱特征之间相关性较强。文中综合9个特征,10次迭代后,能够很好的归一化打分。标注集中,5%的FDR下,灵敏度分别为99.2%和93.5%,相比1.0版本中E-value方法下的99.1%和87.3%,提升了0.1%和6.2%。在其它的复杂样品数据集中,鉴定肽段对的灵敏度也都有所提升。  第三,本文综合前面的两方面创新实现了pLink2.0,软件的内核C++代码24,000余行。完整的流程构建,包括RAW格式数据的导出自动化、搜索与过滤生成报表以及统计各类鉴定结果比例的自动化,同时也集成了pLabel用于标图结果的查看。软件实现中考虑了代码复用与实现的高效性之间的权衡,也运用了多线程技术提升多核CPU的利用率,目前已相对稳定。
其他文献
以九五、十五预研项目——车内数据传输技术为背景,该文研究了在VxWorks实时操作系统下MIL-STD-1553B数据总线的监视与实现. 在研究过程中首先研究了MIL-STD-1553B数据总线的
地域分析技术是作战指挥辅助决策的关键技术之一.该文详细介绍了基于多维战场环境条件下的地域分析智能空间决策支持系统的设计方法、系统结构、主要算法和实现.系统以军事地
随着卫星通信技术的发展,作为卫星通信链路重要的地球站设备也越来越复杂.因此实现地球站尤其是测控站设备的计算机监控就显得致为重要.该文以北京国际海事卫星测控站三期工
该文首先介绍了分布式数据库课题的开发背景、技术发展现状和展望,并介绍了一些关键技术.然后提出了某军事作战指挥系统分布式数据库系统的体系结构设计,深入研究了基于C/S模
九十年代以前,机器翻译的方法可以分为:直译型、转换型和基于中间语言型。进入九十年代以来,机器翻译领域出现了许多新的翻译方法和翻译模型,其中,主要有基于统计的机译系统和基
该篇论文主要对野战辅助决策模糊专家系统技术进行研究.主要阐述了基于现有的一个多领域通用的综合性模糊专家系统的改进工作,使之更加丰富和完善,更好的为军事作战指挥系统
摘要:在数据库中发现知识(KDD)是当今国际人工智能和数据库研究的新兴领域,对于时间序列数据的挖掘是其中重要的研究课题之一。本文分析了知识发现与数据挖掘的基本理论与时序
该文研究和探讨了EQS数据分析软件的设计与实现,为软件其他模块的开发人员进行开发奠定了基础.该文首先研究和探讨了当前流行的统计软件的现状,简单介绍了SAS,SPSS统计软件.
程序切片是一种程序分析和程序理解技术,它通过寻找程序内部的相关性来分解程序,再通过对分解所得程序切片的分析达到对整个程序的理解.程序切片为开发人员进行软件理解、逆
随着宽带技术的飞速发展,宽带接入的问题逐渐成为众人关注的焦点.特别是随着以太网技术逐渐成为主流技术,在以太网中如何对用户进行认证、如何对用户进行管理和记帐等等,成为