蛋白质网络中复合物和功能模块挖掘算法研究

来源 :中南大学 | 被引量 : 34次 | 上传用户:zhanghuajngs
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在后基因组时代,一个重要的挑战就是系统地分析和全面理解蛋白质之间是如何通过相互作用来完成生命活动的。从拓扑结构上分析蛋白质网络的特性,进而探寻蛋白质复合物和功能模块、注释未知蛋白质功能正成为当前国内外研究的重要焦点。 本文从蛋白质网络拓扑特性分析出发,利用各物种蛋白质网络所具有的一些共性特征设计了有效的蛋白质复合物和功能模块识别算法,主要研究工作包括: 应用复杂网络理论和图论技术对不同物种的蛋白质网络进行拓扑特性分析,包括节点的度分布、度与度的相关性、网络直径、网络的特征路径长度、边介数、边间隔以及网络的可靠性等,发现了不同物种的蛋白质网络的一些共性特征,为设计合理的蛋白质复合物和功能模块挖掘算法提供依据。 针对目前能够获得的蛋白质相互作用数据还不完全,直接从蛋白质网络中挖掘完备的全连通图(极大团)来预测蛋白质复合物具有很大局限性这一事实,提出了一种基于极大团扩展的蛋白质复合物识别算法IPC-MCE。该算法不需要其它任何辅助信息,简单有效。将算法IPC-MCE应用于酵母蛋白质网络,实验结果表明其能够识别比较多的具有生物意义的蛋白质复合物,且对输入参数不敏感。 基于对已知蛋白质复合物内蛋白质之间的最短距离一般不超过2的发现,提出了一种基于距离测定的蛋白质复合物识别算法IPC-DM。实验结果表明,算法IPC-DM较其它识别蛋白质复合物的聚类方法更能有效地标识已知蛋白质复合物,并且具有较高敏感度、特异性和综合评价。特别地,算法IPC-DM对蛋白质相互作用大规模数据中普遍存在的比例较高的假阳性和假阴性具有很好的健壮性,能够在蛋白质相互作用数据还不完善且具有较高噪声的情况下有效地识别蛋白质复合物,可以为生物学家进行蛋白质复合物识别的实验和进一步研究提供有价值的参考信息。 针对基于介数的层次化聚类算法计算复杂度高,很难应用于大规模蛋白质网络的不足,引入了局部变量边聚集系数,提出了一种基于边聚集系数的快速层次聚类算法FAG-EC。为降低算法对噪声的敏感性,本文应用logistic回归模型对蛋白质相互作用的可靠性进行评估进而建立加权蛋白质网络,并定义了加权的边聚集系数和功能模块,提出了应用于加权网络的层次聚类算法HC-Wpin。基于GO数据库中生物过程、分子功能和细胞成分全部三种注释信息的验证评估结果表明,算法FAG-EC和HC-Wpin不仅能够有效识别蛋白质网络中具有生物意义的功能模块,并且可以通过修改参数取值来展示蛋白质网络中功能模块的层次化组织结构。此外,算法FAG-EC和HC-Wpin的运行效率非常高,随着大规模蛋白质相互作用数据的不断增加,可以应用于更大规模的蛋白质网络。 针对蛋白质网络中普遍存在的“中心性-致死性”法则,提出了一个图分裂-规约模型,并在该模型基础上设计了一种新的交叠功能模块识别算法OMFinder。实验结果表明算法OMFinder能够有效地识别彼此交叠的功能模块,不同功能模块之间的重叠率约为2。与其他识别交叠功能模块的算法比较,算法OMFinder具有更好的识别性能,且具有更低的丢弃率。 本文提出的几个聚类算法从不同角度出发,有效地解决了蛋白质网络聚类过程中存在的一些问题。本文提出的聚类算法不仅运行效率很高,而且具有很好的聚类效果,识别的蛋白质复合物或功能模块都从统计意义上被证明是有生物意义的,有效地预测了一定数量的未知蛋白质的功能,将会对生物实验有指导意义。此外,本文提出的聚类算法对其它具有相似结构的复杂网络也具有普遍意义。
其他文献
本课题主要是分析高中化学导学案教学,研究小组合作的实施以及对教学方式的反思和建议,从而有效地提高教学效果.随着我国综合国力的提高,各行各业也在不断的发展,特别是教育
在新课改理念下,对化学实验的安全性要求越来越高.文章从发展微型实验、规范化学实验操作、改进化学实验装置、多媒体模拟危害实验四个方面进行阐述,旨在倡导绿色化学理念的
软件测试已经变得比以往任何时候都复杂和困难。软件测试作为保证软件质量和可靠性的重要手段己经成为国内外软件行业研究的重点方向之一。研究测试用例的自动生成,可以降低
近几年来通信技术飞速发展,人们对手机质量的要求越来越高。GSM/GPRS手机的监督检测成为一个重要的环节。本文主要研究的是GSM/GPRS手机自动测试系统的分析与实现。文中简单
在科技飞速发展的今天,提高学生的科学素养势在必行.在《新课程标准》中,北师大郁波教授就从三个层面对科学素养进行了阐述,一是扎实的基础知识;二是科学的思维方式;三是科学
普通高中生物新课程的教学改革开展以来,从传统的生物课堂到新课程理念下生物课堂的不断转变中,作为一名生物教师的角色转变,成长转变,自我需求转变,都慢慢变得清晰,尤其在最
目的比较薄层液基细胞学(Thinprep liquid cytologic test,TCT)单独及联合人乳头状瘤病毒(human papillomaviruses,HPV)-DNA检测在宫颈癌及宫颈早期病变筛查中的价值。方法宫
随着电子技术、计算机技术、通信技术的迅速发展,传统的人工抄表方式已经不合时宜,运用现代化网络技术来进行远程抄表已将成为一种趋势。远程抄表系统采用两层通信信道、三层
生物科学史是生物科学知识发展与生物研究方法演进的过程,其中蕴含着丰富的教育价值.随着我国教育改革的进一步推进,将生物科学史的教学渗透到高中生物课程中有着极为重要的
随着互联网的快速发展和企业信息化程度的提高,越来越多的信息被存储在数据库中并供用户查询。但是传统的数据库系统是面向程序员和高级用户的,用户需要熟悉复杂的查询语句并