论文部分内容阅读
随着高精度质谱技术的飞速发展,基于生物质谱分析的蛋白质、肽段鉴定已经成为蛋白质组学的核心技术。蛋白质、肽段鉴定方法主要分为两大类:数据库搜索和肽段从头测序。数据库搜索在指定的蛋白质数据库中根据母离子质量查找候选肽段;而肽段从头测序则不依赖数据库信息,直接通过谱图信息来推导肽段序列。所以,肽段从头测序方法能够鉴定基因未测序或测序不完整物种的蛋白质,同时也可以鉴定意外修饰以及氨基酸突变等情况。目前,肽段从头测序方法面临三个主要问题:1)样品存在大量的意外修饰,鉴定意外修饰结果十分困难;2)缺乏质量控制手段,很难保证结果的可信度;3)测序精度非常低,据研究者分析,当前主流的测序软件的精度不足40%。本文针对这三个问题展开研究并提出了一系列解决方案。 首先,本文提出了Open-pNovo方法,解决肽段从头测序中的意外修饰发现与鉴定问题。质谱数据中往往存在大量的意外修饰,这些意外修饰主要来源于翻译后修饰及实验过程引入的化学修饰,鉴定这些意外修饰在计算技术上存在挑战。数据库搜索领域已经出现了比较多的鉴定意外修饰的方法——采用大窗口的策略,借助离子索引技术、序列标签技术鉴定意外修饰结果,但是肽段从头测序领域仍然没有解决方案。Open-pNovo考虑Unimod修饰数据库中所有修饰情况,在将谱图转化为质谱连接图的过程中,生成包含两种类型边的有向无环图,并提出了新的基于拓扑排序和败者树的动态规划策略来快速检索前K条最优路径。同时,我们发现在考虑上千种修饰的情况下,需要重新考虑反对称约束,Open-pNovo利用位向量的存储策略来记录每条路径经过的结点情况,以非常小的存储空间为代价获得了O(1)的时间复杂度,来判断路径是否合法。进一步,Open-pNovo使用RankBoost机器学习打分模型来提高结果的精度。我们在三组真实数据集和三组模拟数据集上进行了评测,Open-pNovo的平均召回率接近80%,比pNovo+、PEAKS和Novor高5%到40%;同时,尽管Open-pNovo的理论搜索空间是传统方法的265倍,Open-pNovo每秒钟仍然可以处理163张谱图,其速度稍慢于pNovo+,是PEAKS的8到10倍。 其次,本文提出了pSite方法,解决肽段从头测序领域中的质量控制问题。在数据库搜索领域,目标数据库作为正库,将序列反转生成反库,使用正反库的策略可以有效地估计并控制假发现率(False Discovery Rate,FDR),然而肽段从头测序领域由于考虑了所有理论肽段,没办法构建反库序列,所以无法基于正反库策略来估计假发现率。pSite方法将氨基酸邻域全枚举,得到背景肽段,计算原始肽段与最好的背景肽段间的打分分差,作为特征使用SVM进行分类,有效地区分正确氨基酸和错误氨基酸。随后,pSite利用SVM输出的打分作为氨基酸可信度的打分,结合期望最大化算法来拟合正确氨基酸和错误氨基酸的打分分布,有效地估计并控制氨基酸层次的假发现率(FalseAmino-Acid Rate,FAR)。pSite不仅可以解决氨基酸可信度评估问题,也可以处理另一个蛋白质组学中非常重要的问题——修饰位点定位问题,仍然使用上述框架计算一条肽段中所有合法修饰位点的可信度打分,然后使用贝叶斯公式计算每个位点发生修饰的后验概率,并利用类似正反库策略来估计修饰位点层次的假发现率(False Localization Rate,FLR)。我们在三组常规数据集和三组磷酸化富集数据集上评测了pSite的性能;在三组常规数据集上,当控制FAR在5%以内时,pSite、PEAKS和Novor的氨基酸召回率分别为38.9%、20.2%和4.8%;在三组磷酸化富集的数据集上,当控制FLR在1%以内时,pSite、Ascore和phosphoRS的召回率分别为91.0%、63.7%和62.7%;我们估计得到的FAR、FLR与标注的FAR、FLR非常接近。 此外,本文分别基于湿实验技术和干实验技术两条路线来系统解决测序方法精度低的问题。湿实验方面,由于乙酰化的LysargiNase酶(Ac-LysargiNase)与常用的Trypsin酶构成的成对镜像谱图拥有极高的离子覆盖率,我们利用此镜像性质开发了pNovoM算法。在两组镜像数据集上,pNovoM、Open-pNovo和PEAKS的召回率分别为86.1%、71.2%和70.2%。此外,我们也对比了HCD和ETD多碎裂模式技术与本文提出的镜像技术,发现两种技术存在非常好的互补性;将两种技术结合后,召回率可以提高到99.1%。同时,由于湿实验技术存在镜像谱图比例不高、需要生化实验等缺点,本文也提出了基于深度学习(Deep Learning,DL)和learning-to-rank(L2R)的pNovo3算法。pNovo3使用Open-pNovo得到的结果,利用基于深度学习的理论谱图预测工具pDeep来预测理论谱图,计算理论谱与实验谱的三种相似度,然后使用SVM-rank模型对结果重排序。在七组高精度数据集上进行评测,pNovo3的召回率为38.3-66.0%,比Open-pNovo、PEAKS、Novor相对高29.4-319.6%;我们也与另一个同样使用深度学习框架的肽段从头测序软件DeepNovo进行了评测,在DeepNovo文章中的九组高精度数据集上测试发现,pNovo3性能仍然最好,召回率为42.1-62.0%,比DeepNovo相对高20.6-49.8%。我们也对比了湿实验技术与干实验技术,在镜像数据集上分别使用Open-pNovo、pNovoM和pNovo3进行分析,召回率分别为71.2%、86.1%和78.3%,这意味着干实验技术尽管比常规技术要好,但仍然差于湿实验技术,主要原因是湿实验技术借助了两张谱图的信息。 最后,我们研究并开发了pNovo3软件。pNovo3软件在包含上述pNovo3算法外,也集成了多种算法内核,包括Open-pNovo、pSite和pDeep。pNovo3使用多进程方式来实现单机版本的并行化,根据母离子质量将谱图切割成多份,分别设置多个进程运行Open-pNovo内核。Open-pNovo对于每张谱图保留前十名结果,然后调用pDeep内核预测结果的理论谱图,使用SVM-rank模型重新排序。最后调用pSite内核对第一名结果的所有氨基酸进行可信度的打分,并将平均分作为多谱排序的打分。