论文部分内容阅读
用理论方法从蛋白质的氨基酸序列构建出其高级结构以及推测其功能,即“结构预测”,是一个非常有趣的问题,而且也是一个热点研究领域。本论文将介绍围绕蛋白质结构预测开展的一些研究工作。虽然工作的最终目标是建立一套能够准确预测出蛋白质三维结构的实用方法,但是实现这一目标需要多方面的努力,包括二级结构和转角的预测以及一些算法的实现。同时,蛋白质的一些重要的性质的研究也将加深对蛋白质结构和功能相互关系的了解,因此本论文还将以蛋白质等电点和解离常数的计算为例介绍蛋白质性质预测的一些研究工作。
我们对原有的基于多元线性回归算法的二级结构预测方法作出了改进,通过结合位点特异性计分矩阵以及重新设计的双层预测结构,新的预测方法在平均预测准确率上比以前的方法提高了约5%。新的算法也被用来改进对残基的相对溶剂可接触性的预测,结果也有较大提高。在二级结构三态预测的基础上,加入了对转角的预测,其平均预测准确率接近60%,相关系数为0.42。我们还进一步研究了不同特征图作为输入信息对预测的影响,说明我们的预测算法采用位点特异性计分矩阵作为预测的输入信息是非常合理的。
我们用二级结构特征来定义结构信息并以此来对20种氨基酸进行分类。对于一个合理的分类方式,由于必要的结构信息都保留了下来,氨基酸简并造成的信息损失不会引起结构预测准确率的急剧的下降,相反,不合理的分类方式将丢失很多有用的结构信息从而破坏预测的准确性。我们发现,从20种氨基酸简并到8组所引起预测准确率的降低是很缓慢的,而进一步的简并所带来的影响却是非常显著的。我们推测8种氨基酸也许是构成一个合理的字母表的最低要求。
我们在传统的计算蛋白质等电点的模型基础上加入了对水分子极化作用影响的考虑,得到了更准确的计算结果:在对428个蛋白的等电点计算中,其计算结果的标准偏差比经典模型降低了约7%,而且对于富含碱性氨基酸的蛋白的计算结果更好些。采用不同的解离常数会得到不同的计算结果,这促使我们开展了对解离常数精确计算的研究。
由于蛋白质特定三维结构的存在,使得同样的可解离残基可能处于完全不同的微环境中,因而表现出与孤立的在水溶液中的模型化合物很不一样的解离性质,其表观解离常数pKa往往会有一个比较大的偏移。我们通过对已有的实验测定的pKa数据的分析,利用统计学的相关原理,提出了一种简单的计算pKa的模型。我们的计算模型,相对于其他计算模型,有着很明显的差别:我们的模型没有使用特定的介电常数,而是与氨基酸种类相关的参数。对429个已知实验pKa值的可解离基团进行预测,结果表明绝大多数计算值与实验值相差不到0.6 pH单位。
在我的研究生学习期间,最重要的事情就是参加了两届CASP结构预测比赛。本文将有两章内容来介绍我们在这两次CASP中的工作。在CASP6中,我们扩展了原有的氨基酸替换矩阵,加入了二级结构状态和溶剂可接触性状态的信息,在序列比对算法基础上加入了对结构状态进行匹配的考量,形成了新的比对方法。在CASP7中,我们利用包含结构状态信息的特征图,并采用与结构状态几率相关的非固定值计分方式,来对不同预测可靠性的结构进行不同的打分。从CASP的结果看,对于大多数能找到模板的目标蛋白,甚至包括一些用传统序列搜索方法无法找到模板的蛋白,我们可以搭建出比较好的模型,这得益于我们逐渐积累起来的同源建模的经验以及对一些软件和数据库更合理的运用。对于低同源性结构的搜索,还有很多工作值得去做。而对于不能找到模板的目标蛋白,我们的工作是非常有限的。