论文部分内容阅读
交联质谱技术为研究蛋白质间的相互作用与蛋白质的三维结构提供了新的技术手段。交联质谱技术的主要研究对象是交联二肽,其交联位点与交联剂臂长为相互作用关系的建模与三维结构的预测提供了计算约束条件,具有重要意义。 交联二肽鉴定通常使用基于串联质谱技术的数据库搜索方法。计算的难点主要有两方面,一方面,肽段对组合爆炸,鉴定效率低;另一方面,自动化过滤的方法有待改进,期望进一步提升鉴定的灵敏度。本文调研分析了目前多数交联鉴定引擎中所采用的穷举式与开放式搜索低效的原因,提出了一种行之有效的离子索引的加速策略,多个数据集测试后都有至少10倍以上的加速。交联二肽的评价方面,最新文献中使用的都是离线训练SVM的方法,推广性值得怀疑。本文尝试利用基于半监督学习在线训练SVM的方法,提升了灵敏度。综合以上两个新方法,本文提出了全新的交联二肽鉴定引擎pLink2.0。具体来讲,本文的创新主要有以下三个方面: 第一,本文利用离子索引技术实现了常规特异性多酶切的交联二肽鉴定加速。搜索过程分两步:第一步,用离子索引与粗打分过滤两条肽段中匹配较好的一条,我们称之为α肽,保留前10名;第二步,每张谱选前5名的α肽与谱图母离子质量求差,将该质量作为剩下的β肽的质量,查询肽段索引后与α肽组合成肽段对进行细打分。 鉴定中加速的关键是预先用碎片匹配数过滤匹配差的肽段,减少粗打分的次数。文中精心设计了离子索引的存储结构。索引的词典采用数组直接寻址,数组的下标表示索引碎片离子质量整数化的值,数组的内容存储倒排项的起始位置与结束位置。索引的倒排项中存储每个碎片离子对应肽段在蛋白质序列库中的位置,具体是起始位置与肽段长度。索引的创建方法通过两遍扫描酶切序列,利用计数排序的方法完成。索引查询能够通过碎片离子质量直接寻址,统计每条肽段的碎片匹配数。过滤α肽时,先用碎片匹配数筛选,而后用谱图的母离子质量与位点的合法性检验以及粗打分进一步筛选。 鉴定保证灵敏度的关键是优化谱峰提取算法,降低查询中的随机谱峰比例,同时用更具区分度的粗打分过滤。本文优化了谱峰提取算法,统计了二硫键标注集中,普通y离子、交联y离子、普通b离子、交联b离子的质量分布与匹配比例,将未改进的朴素谱峰提取算法中平均至少75%的随机查询谱峰比例降低到了45%。在两个标注集上都做测试后,仅仅通过碎片离子匹配数过滤,前100名的灵敏度分别从93.5%和94.9%提升至98.9%和98.4%。进一步,经过后面的质量、位点检查、粗打分过滤后,前5名的灵敏度都达到了99.9%以上。β肽的筛选不会再有灵敏度损失,经过组合细打分后,整个的搜索阶段,标注集的灵敏度都在99%以上。 第二,本文实现了基于半监督学习的多特征重打分方法,提升了鉴定的灵敏度。半监督学习中选择训练集与特征的提取是关键。训练集的选择依赖于正反库策略。具体来讲,通过正反库策略估计假发现率FDR,然后将FDR≤1%的正库结果作为正样本,而所有反库结果做负样本。本文提取了9个特征,包括5个单谱特征,4个多谱特征。文中分析发现,本文提出的两个交联特有的单谱特征彼此间有很好的互补性,同其它单谱特征间的关系也是如此。然而,另外的3个单谱特征之间相关性较强。文中综合9个特征,10次迭代后,能够很好的归一化打分。标注集中,5%的FDR下,灵敏度分别为99.2%和93.5%,相比1.0版本中E-value方法下的99.1%和87.3%,提升了0.1%和6.2%。在其它的复杂样品数据集中,鉴定肽段对的灵敏度也都有所提升。 第三,本文综合前面的两方面创新实现了pLink2.0,软件的内核C++代码24,000余行。完整的流程构建,包括RAW格式数据的导出自动化、搜索与过滤生成报表以及统计各类鉴定结果比例的自动化,同时也集成了pLabel用于标图结果的查看。软件实现中考虑了代码复用与实现的高效性之间的权衡,也运用了多线程技术提升多核CPU的利用率,目前已相对稳定。