基于质谱技术的新一代肽段从头测序方法研究

来源 :中国科学院大学 | 被引量 : 0次 | 上传用户:antonw1
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着高精度质谱技术的飞速发展,基于生物质谱分析的蛋白质、肽段鉴定已经成为蛋白质组学的核心技术。蛋白质、肽段鉴定方法主要分为两大类:数据库搜索和肽段从头测序。数据库搜索在指定的蛋白质数据库中根据母离子质量查找候选肽段;而肽段从头测序则不依赖数据库信息,直接通过谱图信息来推导肽段序列。所以,肽段从头测序方法能够鉴定基因未测序或测序不完整物种的蛋白质,同时也可以鉴定意外修饰以及氨基酸突变等情况。目前,肽段从头测序方法面临三个主要问题:1)样品存在大量的意外修饰,鉴定意外修饰结果十分困难;2)缺乏质量控制手段,很难保证结果的可信度;3)测序精度非常低,据研究者分析,当前主流的测序软件的精度不足40%。本文针对这三个问题展开研究并提出了一系列解决方案。  首先,本文提出了Open-pNovo方法,解决肽段从头测序中的意外修饰发现与鉴定问题。质谱数据中往往存在大量的意外修饰,这些意外修饰主要来源于翻译后修饰及实验过程引入的化学修饰,鉴定这些意外修饰在计算技术上存在挑战。数据库搜索领域已经出现了比较多的鉴定意外修饰的方法——采用大窗口的策略,借助离子索引技术、序列标签技术鉴定意外修饰结果,但是肽段从头测序领域仍然没有解决方案。Open-pNovo考虑Unimod修饰数据库中所有修饰情况,在将谱图转化为质谱连接图的过程中,生成包含两种类型边的有向无环图,并提出了新的基于拓扑排序和败者树的动态规划策略来快速检索前K条最优路径。同时,我们发现在考虑上千种修饰的情况下,需要重新考虑反对称约束,Open-pNovo利用位向量的存储策略来记录每条路径经过的结点情况,以非常小的存储空间为代价获得了O(1)的时间复杂度,来判断路径是否合法。进一步,Open-pNovo使用RankBoost机器学习打分模型来提高结果的精度。我们在三组真实数据集和三组模拟数据集上进行了评测,Open-pNovo的平均召回率接近80%,比pNovo+、PEAKS和Novor高5%到40%;同时,尽管Open-pNovo的理论搜索空间是传统方法的265倍,Open-pNovo每秒钟仍然可以处理163张谱图,其速度稍慢于pNovo+,是PEAKS的8到10倍。  其次,本文提出了pSite方法,解决肽段从头测序领域中的质量控制问题。在数据库搜索领域,目标数据库作为正库,将序列反转生成反库,使用正反库的策略可以有效地估计并控制假发现率(False Discovery Rate,FDR),然而肽段从头测序领域由于考虑了所有理论肽段,没办法构建反库序列,所以无法基于正反库策略来估计假发现率。pSite方法将氨基酸邻域全枚举,得到背景肽段,计算原始肽段与最好的背景肽段间的打分分差,作为特征使用SVM进行分类,有效地区分正确氨基酸和错误氨基酸。随后,pSite利用SVM输出的打分作为氨基酸可信度的打分,结合期望最大化算法来拟合正确氨基酸和错误氨基酸的打分分布,有效地估计并控制氨基酸层次的假发现率(FalseAmino-Acid Rate,FAR)。pSite不仅可以解决氨基酸可信度评估问题,也可以处理另一个蛋白质组学中非常重要的问题——修饰位点定位问题,仍然使用上述框架计算一条肽段中所有合法修饰位点的可信度打分,然后使用贝叶斯公式计算每个位点发生修饰的后验概率,并利用类似正反库策略来估计修饰位点层次的假发现率(False Localization Rate,FLR)。我们在三组常规数据集和三组磷酸化富集数据集上评测了pSite的性能;在三组常规数据集上,当控制FAR在5%以内时,pSite、PEAKS和Novor的氨基酸召回率分别为38.9%、20.2%和4.8%;在三组磷酸化富集的数据集上,当控制FLR在1%以内时,pSite、Ascore和phosphoRS的召回率分别为91.0%、63.7%和62.7%;我们估计得到的FAR、FLR与标注的FAR、FLR非常接近。  此外,本文分别基于湿实验技术和干实验技术两条路线来系统解决测序方法精度低的问题。湿实验方面,由于乙酰化的LysargiNase酶(Ac-LysargiNase)与常用的Trypsin酶构成的成对镜像谱图拥有极高的离子覆盖率,我们利用此镜像性质开发了pNovoM算法。在两组镜像数据集上,pNovoM、Open-pNovo和PEAKS的召回率分别为86.1%、71.2%和70.2%。此外,我们也对比了HCD和ETD多碎裂模式技术与本文提出的镜像技术,发现两种技术存在非常好的互补性;将两种技术结合后,召回率可以提高到99.1%。同时,由于湿实验技术存在镜像谱图比例不高、需要生化实验等缺点,本文也提出了基于深度学习(Deep Learning,DL)和learning-to-rank(L2R)的pNovo3算法。pNovo3使用Open-pNovo得到的结果,利用基于深度学习的理论谱图预测工具pDeep来预测理论谱图,计算理论谱与实验谱的三种相似度,然后使用SVM-rank模型对结果重排序。在七组高精度数据集上进行评测,pNovo3的召回率为38.3-66.0%,比Open-pNovo、PEAKS、Novor相对高29.4-319.6%;我们也与另一个同样使用深度学习框架的肽段从头测序软件DeepNovo进行了评测,在DeepNovo文章中的九组高精度数据集上测试发现,pNovo3性能仍然最好,召回率为42.1-62.0%,比DeepNovo相对高20.6-49.8%。我们也对比了湿实验技术与干实验技术,在镜像数据集上分别使用Open-pNovo、pNovoM和pNovo3进行分析,召回率分别为71.2%、86.1%和78.3%,这意味着干实验技术尽管比常规技术要好,但仍然差于湿实验技术,主要原因是湿实验技术借助了两张谱图的信息。  最后,我们研究并开发了pNovo3软件。pNovo3软件在包含上述pNovo3算法外,也集成了多种算法内核,包括Open-pNovo、pSite和pDeep。pNovo3使用多进程方式来实现单机版本的并行化,根据母离子质量将谱图切割成多份,分别设置多个进程运行Open-pNovo内核。Open-pNovo对于每张谱图保留前十名结果,然后调用pDeep内核预测结果的理论谱图,使用SVM-rank模型重新排序。最后调用pSite内核对第一名结果的所有氨基酸进行可信度的打分,并将平均分作为多谱排序的打分。
其他文献
随着多处理器、多核、众核技术的广泛应用,虚拟机技术也得到了长足发展。在多核虚拟化环境中,并发运行的虚拟机会由于竞争使用有限的底层缓存和总线带宽等共享资源,而出现严重的
随着互联网技术的飞速发展,新闻网页、电子邮件、博客日志等文本信息的数量急剧增长,信息过载与知识匮乏之间的矛盾日益突出。对海量文本信息高效组织与处理成为当前信息需求
作为信息隐藏的一个重要方向,隐写技术致力于在数字载体中嵌入一定容量的秘密信息,并使得嵌入后的载体能够从视觉感官和隐写分析的角度都具有不可感知性。人类视觉系统具有以
中枢神经系统疾病(CNS disorders)是一组由慢性进行性中枢神经组织退行性变性而引起的疾病总称,主要包括:帕金森病(Parkinsons disease,PD)、脑小血管病(Cerebrovascular disease
随着计算机技术和通信技术的迅速发展,用户需求不断深化与增长,网络规模日益增长,计算机网络应用越来越广泛,用户业务对信息技术的依赖性日益增加。同时,网络病毒、黑客入侵、拒绝
学位
微米木纤维模压加工过程是一个高度复杂的过程,具有非线性、时滞、高维等特性。模压产品具有较高的密度,可以用于装饰装潢,具有较高的应用价值。握钉力是衡量材料力学物理性能的一个重要指标,当材料使用螺钉相连接时,握钉力大小就显的尤其重要。因此,对模压产品的握钉力进行预测成为微米木纤维模压加工研究的重要课题。本文以模压的汽车换挡杆手柄为对象,将机器学习引入到模压产品的握钉力预测上,通过机器学习方法找到一种有
概念是知识表示的核心要素。因此,概念的提取是知识提取中最核心的任务。如何有效地从各类资源中挖掘概念实例是知识提取研究中的一个关键问题。本文分别针对特定领域文本的概
随着信息通讯技术和互联网的发展,互联网金融信息对金融市场的影响已经越来越不容忽视。某一个新事件的发生或者是网络上对某支股票的热议都在很大程度上左右着金融实践者们
随着工业机器人应用范围越来越广,人们对机器人的运动精度也提出更高的要求。由于各种误差因素的影响,机器人理论位姿和实际位姿总是存在着一定的误差,这个误差严重影响着机
随着时代的不断进步,计算机与网络的性能取得了飞速的提高;与此同时,科学研究领域以及工程领域对于计算能力的要求也在与日俱增。在这样的背景下,网格计算技术应运而生。网格