论文部分内容阅读
蛋白质是细胞结构的重要构成物质,也是细胞内各项功能的直接执行者。蛋白质组学的主要任务是定性和定量地鉴定某生物体组织或细胞内的全部蛋白质,并进一步对这些蛋白质的亚细胞定位、相互作用与翻译后修饰进行系统分析。蛋白质翻译后修饰在真核生物细胞内广泛存在,对蛋白质结构和功能有重要影响。磷酸化修饰在信号转导、代谢、增殖与分化等重要细胞进程中发挥着重要作用,是目前蛋白质组学研究最广泛的修饰类型之一。串联质谱技术的快速发展,为蛋白质组学研究提供了良好的技术平台。其中鸟枪法蛋白质组学策略以肽段为核心,可实现肽段、蛋白质及其翻译后修饰的高通量快速鉴定,是目前蛋白质组学研究最主要的技术手段。 蛋白质序列数据库搜索是串联质谱数据解析最主要的策略。然而受质谱数据复杂性影响,数据库搜索鉴定结果中会存在相当比例的错误匹配。因此采用合理策略对数据库搜索结果进行质量控制已成为数据解析的必要环节。正伪库搜索是目前质量控制领域应用最广泛的策略,可以估计不同来源质谱数据肽段鉴定的准确性。然而随着蛋白质组学数据规模的不断提升,现有质量控制算法开始面临更多的挑战: 1.在肽段质控层面,多种数据搜索引擎被应用于大规模串联质谱数据分析。质控算法需要处理不同搜索引擎的鉴定结果,进行合理整合,以保证肽段鉴定的准确性与灵敏度。 2.在修饰质控层面,以磷酸化为代表的翻译后修饰质控研究需要在保证肽段鉴定准确性基础上,进一步保证修饰位点判定的准确性。随着修饰组学数据集规模的不断提升,现有质量控制算法不能有效保证大规模磷酸化肽段与位点鉴定的准确性。 3.受磷酸化修饰中性丢失、谱图噪声以及肽段序列潜在修饰位点临近等因素影响,相当比例的高可信匹配修饰肽段不能实现修饰位点的精确判定,严重降低了质谱数据的利用效率。 4.在蛋白质分析方面,采用多批次串联质谱数据集累加策略,人类蛋白质编码基因的鉴定覆盖度可以达到60%甚至更高。采用合理质控策略整合不同来源的蛋白质组数据集,避免多批次鉴定结果累加引入的假阳性,保证最终蛋白质列表的准确性,已成为蛋白质组信息学关注的重要问题。 本文主要关注大规模串联质谱数据鉴定结果的质量控制问题。在常规肽段质控研究基础上,构建了高灵敏度、高准确性的修饰肽段与位点质控算法,进一步添加序列特征,提升了质谱数据利用效率。质控流程应用于人类染色体蛋白质组计划与酵母大规模蛋白质组学数据分析,建立了蛋白质水平鉴定准确性评估机制,实现不同来源数据集的整合质控,为后续生物学分析提供高可信的数据支撑。 首先在常规肽段质控研究方面,对已有的基于迭代支持向量机整合多特征的质量控制策略进行改进。通过构建质控算法标准输入格式、改进理论碎裂模型与特征计算策略,使得算法可以适用多种质谱仪器平台数据与不同搜索引擎鉴定结果的质控分析。进一步建立常规肽段的多搜索引擎整合质控模型,利用不同搜索引擎性能的互补性,提升肽段鉴定灵敏度。 在常规肽段质控研究基础上,针对已有磷酸化修饰质量控制算法存在的问题以及大规模修饰组学数据分析的需要,开发了一套完整的磷酸化修饰数据集搜库结果质控流程PhosphoDistiller,保证修饰肽段与位点鉴定的准确性与灵敏度。流程主要包括修饰肽段质控、修饰位点概率打分、修饰位点Motif特征重打分以及蛋白质水平统计展示模块。 修饰肽段质控与常规肽段质控的基本原理相同,但整合的特征有所不同。在常规肽段质控使用特征集合基础上,修饰肽段质控算法加入了磷酸化修饰中性丢失相关特征,针对不同碎裂模式质谱数据进行特征筛选,保证肽段鉴定灵敏度。实现多馏分数据集整合质控,避免不同馏分数据质量差异引入的假阳性。大规模标准肽段数据集评估显示,算法估计的错误发现率不低于真实值,可以保证修饰肽段鉴定准确性。 位点概率打分算法主要作用是评估不同潜在修饰位点理论碎裂谱图与噪声过滤之后实验谱图的相似关系,利用基于二项分布的数学模型,将匹配子离子数转化成概率,评估位点鉴定的准确性。为降低噪声对位点判定的影响,结合位点特征离子总数引入一个虚拟的潜在修饰位点,校正概率打分算法,避免位点错误发现率的低估。评估结果显示,校正之后的位点概率打分算法估计的位点错误发现率接近真实值,有效提升了修饰位点鉴定的准确性。 之后针对那些概率打分算法不能精确定位的高可信修饰肽段匹配结果,在修饰位点概率打分基础上,引入Motif序列特征,提升修饰位点判定的灵敏度。算法以贝叶斯模型为核心,采用概率打分中位点高可信的修饰肽段与非修饰肽段作为训练集,分析每个激酶及其对应Motif在样品中的活性,作为特征应用于位点概率打分模型,提升算法对于临近潜在修饰位点的区分能力。该策略将不同谱图鉴定信息相关联,降低位点打分算法对单一二级谱数据质量的依赖。采用人类磷酸化富集数据集分析显示,Motif特征打分与位点概率打分有很好的一致性,可以将位点鉴定规模提升15%左右。 最后应用构建的质量控制体系对人类染色体蛋白质组计划的大规模数据展开分析。针对不同仪器平台、不同样本来源的串联质谱数据集,在肽段水平质量控制基础上,进行蛋白质水平的整合质控,推出高可信的大规模整合蛋白质组数据集,为注释人类基因组——补充蛋白质水平证据提供高可信的数据支撑。之后以转录组丰度为背景,采用模拟策略对人类大规模蛋白质组数据饱和性进行分析,为后续染色体蛋白质组研究的实验设计指明方向。除了人类蛋白质组数据,我们的质量控制体系还应用于酵母深度覆盖蛋白质组数据分析,进一步研究饱和状态下组学数据特性与质控算法性能,为深入研究酵母基因组的表达特性提供高可信的数据支撑。 综上所述,本研究针对鸟枪法蛋白质组研究中大规模串联质谱数据肽段与翻译后修饰鉴定结果的质量控制问题,构建基于正伪库搜索的质量控制流程PhosphoDistiller。该流程可用于多种仪器平台与多种搜索引擎鉴定结果的质控分析,保证肽段与修饰位点鉴定的准确性与灵敏度,并有效提升了质谱数据在修饰位点鉴定方面的利用效率。质控体系应用于人类染色体蛋白质组计划与酵母深度覆盖等大规模蛋白质组数据分析,为后续定量研究与功能分析提供有效的保障。