蛋白质理论质谱和肽段断裂事件分布预测及应用

来源 :中国科学院计算技术研究所 | 被引量 : 0次 | 上传用户:lhww123
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
串联质谱 (Tandem Mass Spectrometry) 是蛋白质序列鉴定的重要方法,其目标是如何从已知实验质谱来推断未知肽段的氨基酸序列.在此过程中,如何从一个肽段序列精确地预测出对应的理论质谱谱图是一个关键步骤. 为了精确地预测理论质谱谱图,仅仅有对肽段断裂机制的定性认识是不够的,还必须对断裂机制进行定量的分析.目前,广泛使用的基于蛋白质库的数据库搜索方法(Database Search),比如SEQuEST,MASCOT等,仅考虑了简单的断裂模型,而忽略了一些影响断裂的重要因素,比如断裂的肽键位置和断裂的肽键种类等.而忽略这些因素常常会导致预测出的理论质谱谱图和真实质谱谱图有较大差异,从而影响最终鉴别的精度.此外,如何应用理论质谱以提高序列鉴别精度也是值得研究的课题. 针对上述问题,本文进行了如下尝试: 1.提出了一种肽段断裂参数的迭代学习算法: 本文提出了一个肽段断裂的新模型,同时考虑肽键位置和肽键种类的影响,并通过一个迭代算法对训练集中的肽段和质谱学习出这些重要的影响参数.利用这些参数,就可以根据测试集中的肽段序列预测出相应的理论质谱谱图并和真实的实验质谱谱图比较. 2.设计了一种实验质谱谱图和候选肽段之间相似度的度量: 在理论质谱谱图预测中,b离子与y离子的比例是一个重要的参数,但是基于当前对肽段断裂的认识还不足以很好地进行估计.本文还提出预测肽段断裂事件分布来代替理论质谱谱图预测,有效避免b离子与y离子的比例这个参数.这种方法能把长为L的肽段和实验质谱谱图都转化成L维的向量,然后利用相对熵对这两个L维的向量进行打分来估计原来的肽段和实验质谱谱图的相似程度. 在几组质谱数据集合上的实验结果表明:迭代算法学习出的参数和已有定性观察有很好的吻合,通过这些参数恢复出的理论质谱谱图和真实的实验质谱谱图有较高的相似度;基于断裂事件分布的相对熵能够较好地反映出实验质谱谱图和候选肽段的相似程度,不仅能提高目前数据库搜索方法的准确度,还能利用肽键种类对断裂的影响来改进当前的De Novo方法.
其他文献
本文从Debian GNU/Linux操作系统的基本概念和设计实现出发,研究了在龙芯处理器平台上Linux发行版的开发过程和实现方案,对实现过程中软件包编译和管理环节提出了优化方案和
在目前的考试系统中,由于自然语言处理和人工智能技术的限制,具有通用性和实用性的主观题自动评分系统还没有出现。国内现有的系统对主观题的处理大多依然是通过教师的人工阅
近年来机群系统凭借良好的可扩展性、可用性以及极高的性价比成为高性能计算机和超级服务器的主流结构.然而,磁盘性能的改善远远落后于CPU处理速度、内存性能、互连网络带宽
在现代超大规模集成电路中,每个芯片中都包含上百万个晶体管和互连线,其中任何缺陷都可能导致整个芯片设计失败.在后端物理设计中,要经历综合、布图规划、布局、布线等步骤,
在"龙芯"产业化过程中,"应用软件库"不丰富是一个重要的问题,对于用c/c++等平台相关语言编写的应用程序,移植和维护都需要大量的人力物力,只要"龙芯"产品投入市场,移植和维护
软件安全漏洞的存在及其带来巨大的危害使得软件漏洞检测技术的研究日益重要。其基本思想是通过对待测试软件程序采取不同的技术手段,分析程序的源代码、二进制代码或在对应
近十来年,互联网技术得到了快速发展,互联网用户不断增加,网络应用得到迅速普及,网络数据的增长速度超乎想象。XML语言(可扩展标记语言)作为互联网上数据交换和共享事实上的
随着数据仓库技术与数据挖掘技术的广泛应用和发展,企业管理人员对决策分析有了更高的要求。企业的中高层领导目前更多关注的是如何能够在现有大量数据的背后挖掘到有用的隐藏
随着网络服务要求的提高,网络系统的协议也变的越来越复杂,在这种情况下,需要合适的方法、技术来对协议进行正确性验证和测试[1][2].对协议本身的逻辑正确性进行校验的过程称
随着通信技术的持续发展,用户对于通信服务提出了越来越高的要求,视频通信由于其可视的业务特点以及其高速率的数据传输量和由此带来的对传输载体的性能要求而被关注.传输具