基于串联质谱的肽段与修饰鉴定的质量控制算法研究与应用

来源 :中国人民解放军军事医学科学院 解放军军事医学科学院 | 被引量 : 1次 | 上传用户:m397760109
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
蛋白质是细胞结构的重要构成物质,也是细胞内各项功能的直接执行者。蛋白质组学的主要任务是定性和定量地鉴定某生物体组织或细胞内的全部蛋白质,并进一步对这些蛋白质的亚细胞定位、相互作用与翻译后修饰进行系统分析。蛋白质翻译后修饰在真核生物细胞内广泛存在,对蛋白质结构和功能有重要影响。磷酸化修饰在信号转导、代谢、增殖与分化等重要细胞进程中发挥着重要作用,是目前蛋白质组学研究最广泛的修饰类型之一。串联质谱技术的快速发展,为蛋白质组学研究提供了良好的技术平台。其中鸟枪法蛋白质组学策略以肽段为核心,可实现肽段、蛋白质及其翻译后修饰的高通量快速鉴定,是目前蛋白质组学研究最主要的技术手段。  蛋白质序列数据库搜索是串联质谱数据解析最主要的策略。然而受质谱数据复杂性影响,数据库搜索鉴定结果中会存在相当比例的错误匹配。因此采用合理策略对数据库搜索结果进行质量控制已成为数据解析的必要环节。正伪库搜索是目前质量控制领域应用最广泛的策略,可以估计不同来源质谱数据肽段鉴定的准确性。然而随着蛋白质组学数据规模的不断提升,现有质量控制算法开始面临更多的挑战:  1.在肽段质控层面,多种数据搜索引擎被应用于大规模串联质谱数据分析。质控算法需要处理不同搜索引擎的鉴定结果,进行合理整合,以保证肽段鉴定的准确性与灵敏度。  2.在修饰质控层面,以磷酸化为代表的翻译后修饰质控研究需要在保证肽段鉴定准确性基础上,进一步保证修饰位点判定的准确性。随着修饰组学数据集规模的不断提升,现有质量控制算法不能有效保证大规模磷酸化肽段与位点鉴定的准确性。  3.受磷酸化修饰中性丢失、谱图噪声以及肽段序列潜在修饰位点临近等因素影响,相当比例的高可信匹配修饰肽段不能实现修饰位点的精确判定,严重降低了质谱数据的利用效率。  4.在蛋白质分析方面,采用多批次串联质谱数据集累加策略,人类蛋白质编码基因的鉴定覆盖度可以达到60%甚至更高。采用合理质控策略整合不同来源的蛋白质组数据集,避免多批次鉴定结果累加引入的假阳性,保证最终蛋白质列表的准确性,已成为蛋白质组信息学关注的重要问题。  本文主要关注大规模串联质谱数据鉴定结果的质量控制问题。在常规肽段质控研究基础上,构建了高灵敏度、高准确性的修饰肽段与位点质控算法,进一步添加序列特征,提升了质谱数据利用效率。质控流程应用于人类染色体蛋白质组计划与酵母大规模蛋白质组学数据分析,建立了蛋白质水平鉴定准确性评估机制,实现不同来源数据集的整合质控,为后续生物学分析提供高可信的数据支撑。  首先在常规肽段质控研究方面,对已有的基于迭代支持向量机整合多特征的质量控制策略进行改进。通过构建质控算法标准输入格式、改进理论碎裂模型与特征计算策略,使得算法可以适用多种质谱仪器平台数据与不同搜索引擎鉴定结果的质控分析。进一步建立常规肽段的多搜索引擎整合质控模型,利用不同搜索引擎性能的互补性,提升肽段鉴定灵敏度。  在常规肽段质控研究基础上,针对已有磷酸化修饰质量控制算法存在的问题以及大规模修饰组学数据分析的需要,开发了一套完整的磷酸化修饰数据集搜库结果质控流程PhosphoDistiller,保证修饰肽段与位点鉴定的准确性与灵敏度。流程主要包括修饰肽段质控、修饰位点概率打分、修饰位点Motif特征重打分以及蛋白质水平统计展示模块。  修饰肽段质控与常规肽段质控的基本原理相同,但整合的特征有所不同。在常规肽段质控使用特征集合基础上,修饰肽段质控算法加入了磷酸化修饰中性丢失相关特征,针对不同碎裂模式质谱数据进行特征筛选,保证肽段鉴定灵敏度。实现多馏分数据集整合质控,避免不同馏分数据质量差异引入的假阳性。大规模标准肽段数据集评估显示,算法估计的错误发现率不低于真实值,可以保证修饰肽段鉴定准确性。  位点概率打分算法主要作用是评估不同潜在修饰位点理论碎裂谱图与噪声过滤之后实验谱图的相似关系,利用基于二项分布的数学模型,将匹配子离子数转化成概率,评估位点鉴定的准确性。为降低噪声对位点判定的影响,结合位点特征离子总数引入一个虚拟的潜在修饰位点,校正概率打分算法,避免位点错误发现率的低估。评估结果显示,校正之后的位点概率打分算法估计的位点错误发现率接近真实值,有效提升了修饰位点鉴定的准确性。  之后针对那些概率打分算法不能精确定位的高可信修饰肽段匹配结果,在修饰位点概率打分基础上,引入Motif序列特征,提升修饰位点判定的灵敏度。算法以贝叶斯模型为核心,采用概率打分中位点高可信的修饰肽段与非修饰肽段作为训练集,分析每个激酶及其对应Motif在样品中的活性,作为特征应用于位点概率打分模型,提升算法对于临近潜在修饰位点的区分能力。该策略将不同谱图鉴定信息相关联,降低位点打分算法对单一二级谱数据质量的依赖。采用人类磷酸化富集数据集分析显示,Motif特征打分与位点概率打分有很好的一致性,可以将位点鉴定规模提升15%左右。  最后应用构建的质量控制体系对人类染色体蛋白质组计划的大规模数据展开分析。针对不同仪器平台、不同样本来源的串联质谱数据集,在肽段水平质量控制基础上,进行蛋白质水平的整合质控,推出高可信的大规模整合蛋白质组数据集,为注释人类基因组——补充蛋白质水平证据提供高可信的数据支撑。之后以转录组丰度为背景,采用模拟策略对人类大规模蛋白质组数据饱和性进行分析,为后续染色体蛋白质组研究的实验设计指明方向。除了人类蛋白质组数据,我们的质量控制体系还应用于酵母深度覆盖蛋白质组数据分析,进一步研究饱和状态下组学数据特性与质控算法性能,为深入研究酵母基因组的表达特性提供高可信的数据支撑。  综上所述,本研究针对鸟枪法蛋白质组研究中大规模串联质谱数据肽段与翻译后修饰鉴定结果的质量控制问题,构建基于正伪库搜索的质量控制流程PhosphoDistiller。该流程可用于多种仪器平台与多种搜索引擎鉴定结果的质控分析,保证肽段与修饰位点鉴定的准确性与灵敏度,并有效提升了质谱数据在修饰位点鉴定方面的利用效率。质控体系应用于人类染色体蛋白质组计划与酵母深度覆盖等大规模蛋白质组数据分析,为后续定量研究与功能分析提供有效的保障。
其他文献
化学是一门科学,充满着神奇色彩,有着很大的实用价值,最大程度的应用化学这门科学可以让人类拥有更加丰富的生活,而且还可以解决一些环境资源问题.学习化学具有非常重要的意
信息技术已经走进社会生活的各个领域,信息技术学科的重要性也越来越突出,普及信息技术教育已成为我国实施素质教育、实现教育现代化的重要内容.因此探讨行之有效的信息技术
中学生处于活泼好动的年龄,对事物也充满着强烈的好奇心.在进行各种行为,尤其在体育课上,安全意识很差,经常会发生安全事故.因此,随着体育教学改革的推进,体育课安全意识已经
广泛收集我国湿润地区啮齿动物的地理分布资料,并对资料进行系统的整理和筛选。运用GIS技术,根据物种的地理分布数据和物种-生境模型,预测啮齿动物在我国湿润地区的分布范围
红树林区内部的鱼类具有巨大生物量和极高的多样性。红树林对鱼类的吸引力,一般上认为来自于三个假设:①红树林的结构多相性对它们有特别吸引力;②红树林复杂的结构可以降低幼鱼
阳春三月,万物复苏,一进校园,映入眼底的便是那几盆盛开的鲜花,它们高傲地又似乎是腼腆地站在那里.同学们在走廊里忙碌地穿梭,一片生机盎然、令人心旷神怡的景象.
1961年出生,湖南郴州人,结业于中央美院版画研修班,主研丝网版画。湖南省美协会员,湖南师大兼职教授、硕导,湖南省当代版画艺术馆荣誉馆长。有作品参加全国美展和湖南艺术展,
贵仁杰的书法是反贵族化的,对轻盈婉转和精巧雅致的抗拒,不仅仅是一种趣味的转换,从某种意义上说贵仁杰的书法作品更注重作品的形式感及书法话语的纯粹性。书法“贵险而劲”
吉一玮吉一玮毕业于太原理工大学轻纺美院。他一直认为远离尘嚣才是艺术的本质,一个人思考时,想象力才能支配画布甚至生活。为了追求远离喧嚣的艺术世界,他一直尝试着用手中
黑芥子酶—硫代葡萄糖苷系统是十字花科植物(包括拟南芥和芸苔属植物)防御植食性昆虫和病原菌侵害的主要化学防御系统,也被称作“芥子油炸弹”。对于可利用的抗虫种质资源相