统计机器学习方法在蛋白质组学中的应用

来源 :北京大学 | 被引量 : 0次 | 上传用户：victim1031

【摘要】

：

蛋白质相互作用网络在细胞生命中起着非常关键的作用，当前蛋白质组学研究的一个首要任务即是构建整个细胞的蛋白质相互作用网络。所以无论是实验的方法还是计算的方法，准确的鉴

【作者】

：

蔡延亮

【机构】

：

北京大学

【出处】

：

北京大学

【发表日期】

：

2011年期

【关键词】

：

蛋白质组学统计机器学习方法数据降维效果偏最小二乘法

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

蛋白质相互作用网络在细胞生命中起着非常关键的作用，当前蛋白质组学研究的一个首要任务即是构建整个细胞的蛋白质相互作用网络。所以无论是实验的方法还是计算的方法，准确的鉴定、预测蛋白质间的相互作用对当前蛋白质组学的研究都是非常重要的。　　本文首先基于蛋白质结构域共现信息，采用半朴素贝叶斯模型对蛋白质间的相互作用进行预测。蛋白质对间的域信号共现信息可用来判定两个蛋白质间是否有相互作用。前人的研究中只关注单独的域信号对是否共现来作为判定的依据，我们借助半朴素贝叶斯模型挖掘到那些在同一个蛋白质内共现度较高的域信号对，以及在不同的蛋白质间共现度较高的域信号对。借助这些共现信息来预测蛋白质问的相互作用提高了预测的准确度。在10-折交叉实验中达到了的83.12％灵敏度和73.23％的特异度。　　由于很多蛋白质的结构域信息不被其他蛋白质所共有，这就限制了半朴素贝叶斯模型的应用和推广。于是我们提出利用蛋白质的亚细胞和功能定位信息来对蛋白质间的相互作用进行预测。用包含蛋白质亚细胞和功能定位信息的特征向量来编码蛋白质，得到一个高维的稀疏向量。结合这种类型的向量和亚细胞、功能定位本身的生物学意义，我们提出了四种编码方式。四种编码方式都从不同的侧面去反映了每一维亚细胞、功能定位的信息。基于这四种编码方式，我们实验了随机森林、决策树、支撑向量机(SVM)、朴素贝叶斯、k近邻(k-NN)等多种分类器。其中随机森林算法表现出了更好的分类效果和鲁棒性。95.1％的特异度和77.5％的灵敏度表明我们的实验方案在蛋白质相互作用问题中有很好的应用前景。我们还验证了对于蛋白质相互作用预测，亚细胞和功能定位两者的重要程度，结果表明蛋白质功能定位更能决定蛋白质间的相互作用。　　蛋白质质谱技术可用来对蛋白质进行鉴定，它具有相对便宜的成本和微创伤的实验代价。已经广泛的应用于癌症早期诊断的生物标记物发现，定量预知药物的疗效等领域。利用蛋白质质谱数据进行癌症预测可以为癌症的早期诊断和治疗提供依据。　　针对蛋白质质谱数据具有高维度、低样本量的特点，本文采用偏最小二乘法对基于蛋白质质谱数据的癌症预测问题进行研究。偏最小二乘方法是一种新型的多元数据统计分析方法，它有回归建模、数据结构简化以及两组变量之间相关性分析三种特性。81.76％的灵敏度和71.25％的特异度表明偏最小二乘法在基于蛋白质质谱数据的癌症预测问题中具有较好的分类效果。我们还采用了四种特征选择的方法：t检验、显著性微阵列分析、统计量分析和主成分分析，来对数据降维，挖掘数据内在的信息。实验结果表明t检验和统计量分析方法有较好的数据降维效果。

其他文献

Maze中面向社会网络的多角色层次化权限管理系统的设计与实现

随着互联网技术的发展，网络已经渗透到人们生活的各个领域。社区网站、SNS、博客、微博、电子商务、P2P文件共享等网络应用极大的方便了人们的生活，使网络成为生活不可分割的一

学位

Maze系统社会网络多角色层次化权限管理系统P2P文件共享系统

基于词典的汉藏句子自动对齐

自然语言处理的许多研究都是从大规模的语料库提取语言知识的规律，然后利用这些规律来指导自然语言处理的过程。双语语料库含有两种语言之间的互译对照信息，对于这两种语言之间

学位

文本信息汉藏句子句子对齐文字处理

基于数据挖掘的证券行情预测系统

证券市场不仅是国家经济的“晴雨表”,更是企业融资和广大股民投资的重要手段,对证券的预测分析无论对散户投资者、企业还是政府相关政策的制定都具有重大的理论与现实意义。

学位

数据挖掘证券行情预测关联规则挖掘离群点挖掘股票行情预测

一种系统芯片中跨时钟域路径的可测性设计与实现

随着半导体技术的不断发展,越来越多的功能部件被集成到单个芯片之上,也就是所谓的系统芯片。在这种结构和功能越来越复杂的系统芯片当中,往往存在着大量跨时钟域路径,这些路

学位

可测性设计跨时钟域路径测试向量生成图着色问题贪心法系统芯片

时序可中断π演算及其在工作流建模中的应用

随着计算机技术的深入发展和计算机软件在生产生活中的广泛应用,软件的正确性验证成了人们关心的重要问题。而模型检查作为一种软件正确性验证的方法,受到工业界广泛认同。它

学位

时序可中断π演算BPEL建模BPEL4People建模MARTE顺序图工作流建模形式化语义

云环境中基于主从架构的索引的设计与实现

随着互联网的快速发展，互联网应用越来越依赖于支持高吞吐量和海量可扩展性的数据管理系统。近年来，云环境在解决海量数据的高效管理方面正得到越来越多的关注。当前，有若干提供

学位

云环境分布式索引查询处理主从架构

物体轮廓曲线匹配技术在文物复原中的应用

对于大量的文物碎片,如果进行人工拼接则不仅工作量大而且容易造成文物的再次破坏,因此需要借助计算机实现文物复原。在计算机辅助的文物复原系统中,碎片自动复原是指从众多

学位

轮廓提取轮廓曲线碎片匹配碎片拼合形状匹配

一款按序执行处理器中二级高速缓存的设计与验证

随着VLSI技术的迅猛发展,处理器主频日益提高,而存储器的速度提升相对缓慢,处理器和存储器之间速度的差距越来越大,存储器层次结构则很好的弥补了高速处理器和低速存储器之间

学位

二级高速缓存按序执行处理器结构设计FPGA原型验证

基于自适应光子发射的光子映射算法研究

真实感绘制一直是计算机图形学中一项基本而重要的研究内容,它使用计算机来模拟并重现真实世界中的景象。全局光照技术是实现真实感绘制的主要手段,由于其能模拟自然界中的多

学位

光子映射算法自适应光子发射全局光照技术

基于惯性传感器的运动捕获系统研究

运动捕获是人机交互、可穿戴计算、普适计算和计算机视觉领域的一个重要研究方向。基于惯性传感器的运动捕获则是其中一个重要而活跃的研究课题,在自然用户界面、普适计算、

学位

运动捕获系统惯性传感器惯性运动捕获

统计机器学习方法在蛋白质组学中的应用

其他学术论文