论文部分内容阅读
串联质谱 (Tandem Mass Spectrometry) 是蛋白质序列鉴定的重要方法,其目标是如何从已知实验质谱来推断未知肽段的氨基酸序列.在此过程中,如何从一个肽段序列精确地预测出对应的理论质谱谱图是一个关键步骤.
为了精确地预测理论质谱谱图,仅仅有对肽段断裂机制的定性认识是不够的,还必须对断裂机制进行定量的分析.目前,广泛使用的基于蛋白质库的数据库搜索方法(Database Search),比如SEQuEST,MASCOT等,仅考虑了简单的断裂模型,而忽略了一些影响断裂的重要因素,比如断裂的肽键位置和断裂的肽键种类等.而忽略这些因素常常会导致预测出的理论质谱谱图和真实质谱谱图有较大差异,从而影响最终鉴别的精度.此外,如何应用理论质谱以提高序列鉴别精度也是值得研究的课题.
针对上述问题,本文进行了如下尝试:
1.提出了一种肽段断裂参数的迭代学习算法:
本文提出了一个肽段断裂的新模型,同时考虑肽键位置和肽键种类的影响,并通过一个迭代算法对训练集中的肽段和质谱学习出这些重要的影响参数.利用这些参数,就可以根据测试集中的肽段序列预测出相应的理论质谱谱图并和真实的实验质谱谱图比较.
2.设计了一种实验质谱谱图和候选肽段之间相似度的度量:
在理论质谱谱图预测中,b离子与y离子的比例是一个重要的参数,但是基于当前对肽段断裂的认识还不足以很好地进行估计.本文还提出预测肽段断裂事件分布来代替理论质谱谱图预测,有效避免b离子与y离子的比例这个参数.这种方法能把长为L的肽段和实验质谱谱图都转化成L维的向量,然后利用相对熵对这两个L维的向量进行打分来估计原来的肽段和实验质谱谱图的相似程度.
在几组质谱数据集合上的实验结果表明:迭代算法学习出的参数和已有定性观察有很好的吻合,通过这些参数恢复出的理论质谱谱图和真实的实验质谱谱图有较高的相似度;基于断裂事件分布的相对熵能够较好地反映出实验质谱谱图和候选肽段的相似程度,不仅能提高目前数据库搜索方法的准确度,还能利用肽键种类对断裂的影响来改进当前的De Novo方法.