论文部分内容阅读
生物分子和很多其它有机配体能够与蛋白质在其表面特定位点高度亲和结合。如何区分这样的结合位点与蛋白质其它表面区域,这个问题是蛋白质研究领域的前沿课题。近些年来,在蛋白质分子表面上预测可能结合区域的潜在价值越来越重要。随着生物学和医学中重要蛋白质的结构知识的不断增长,这样的预测方法变得更加实用化。它能够为合理药物分子设计提供帮助,同时也可以揭示蛋白质分子功能。对于功能预测和合理药物设计两方面的应用,都需要一个可靠的蛋白质.配体结合位点识别和定义方法。在蛋白质复合体三维结构已知的情况下,就可以对蛋白质.蛋白质相互作用界面以及蛋白质.配体结合面做关于氨基酸分布和物理化学特征的系统分析,这使得活性位点的识别成为可能。已经有很多计算方法被开发出来,利用这些信息预测蛋白质可能的结合位点。但是,目前的方法在预测精度和效率上仍然存在不足,所以需要进一步研究结合位点预测方法以提高其预测能力,揭示其关键影响因素。本文研究蛋白质结合位点的预测方法,主要包括四个部分。第一章,首先描述了蛋白质-配体相互作用原理,包括热力学理论、结合过程理论模型和物理学性质。然后,概述了蛋白质结合位点预测研究现状,包括蛋白质.配体结合位点预测和蛋白质.蛋白质结合位点预测两个方面内容。最后,简要介绍了本文主要工作内容以及取得的结果。第二章,提出了两种新的氨基酸组成偏好表示模型,分别以原子和原子接触对作为统计对象,区别于传统使用残基作为统计对象的模型。基于全局口袋偏好的配体结合口袋识别方法测试结果显示,基于原子和基于原子接触对模型要优于基于残基的模型。由于结合位点上存在所谓热点区域,我们定义偏好值最大的局部区域作为一个口袋的热点,这个局部偏好值代表整个口袋的偏好属性,再结合口袋大小属性形成了基于局部口袋偏好的配体结合口袋识别方法。结果分析显示,这两个属性能够相互促进、极大提高识别能力;与文献上发表的一些预测方法比较,我们的方法取得了相当的准确率并具有计算简单的优点。第三章,基于蛋白质-配体结合位点与蛋白质-蛋白质结合位点在几何特征和物理化学性质方面的差异,我们分别提出了两种残基属性定义模型,即单块和多块残基属性定义模型。由残基属性定义模型得到的残基特征,利用随机森林算法构建了结合残基分类预测器。另外,我们还提出了一种新的聚类方法用来发现并预测结合位点。这些方法分别被应用于蛋白质-配体与蛋白质-蛋白质结合残基的预测。采用相同数据集及成功标准,基于单块残基属性定义模型的随机森林分类器在蛋白质-配体结合位点预测准确率方面要优于Q-SiteFinder, SCREEN和Morita’s method三种方法;同样,平衡准确率和CC(Correlation Coefficient)值结果显示,基于多块残基属性定义模型的随机森林分类器在蛋白质.蛋白质结合残基预测能力方面优于Yan、Wang以及Chen and Jeong的方法;在蛋白质-蛋白质结合位点预测方面,基于多块残基属性定义模型的预测器也都优于Bradford and Westhead’s method、Bradford and Needham’s method和Higa and Tozzi’s method。第四章,把基于随机森林的蛋白质结合位点预测方法用于辅助分子对接。对于蛋白质-配体分子对接,随机森林预测方法以前端使用方式缩小构象搜索空间。对接结果表明,该预测方法在辅助对接方面要优于流行软件Accelrys Discovery Studio中的结合位点预测方法。在蛋白质-蛋白质分子对接中,随机森林预测方法按后端使用方式,即作为一种打分函数用来挑选近自然构象,对接实验表明,基于预测信息设计的打分模型在识别近自然构象方面与ZDOCK打分函数各有优势,有较大的互补性。论文最后部分对本文的工作做了总结并且对后续研究进行了展望。本文工作受到国家自然科学基金项目“药物分子优化设计的网格计算方法研究(No.10772042)”,国家863科技计划项目“新药研发网(No.2006AA01A124)”和《国家重点基础研究发展规划》项目“蛋白质动态行为和相互作用模拟新方法研究(No.2009CB918501)”的资助。