论文部分内容阅读
蛋白质是由氨基酸脱水缩合组成的复杂有机物。在大多数生物体各个组织里面,蛋白质的含量仅次于水,并参与多种生命活动过程,在生物体中的功能至关重要。 蛋白质的空间结构决定其功能,所以了解蛋白质的空间结构是探索蛋白质功能的前提。蛋白质结构的实验测定方法具有周期长、代价高等局限性,这使得计算方法对蛋白质结构预测具有重要意义。 氨基酸脱水缩合后剩余部分称为残基。残基包埋状态的信息对蛋白质结构预测具有重要作用。蛋白质的残基按残基包埋状态分为包埋残基和外露残基两种。一般说来,疏水残基倾向于包埋在疏水内核,用来维持蛋白质折叠的空间构象和结构完整性;亲水残基倾向于暴露在溶剂中,它决定了蛋白质的功能和蛋白的稳定性。残基的包埋状态是蛋白质折叠的驱动力之一,同时很大程度地描述了蛋白质残基的疏水效应。而疏水效应对单体可溶解的球蛋白具有很强的驱动作用。此外,包埋状态是蛋白质残基的全局特征,是蛋白质三维结构到一维特征序列的映射。这个全局特征对于二级结构、结构码、主链扭角、结合位点、非正则区等局部特征的获取具有重要的补充作用。与其他全局特征如残基间的接触图谱、距离图谱等相比,包埋状态更易预测,即可达到的预测精度更高,预测结果更可靠。包埋状态的预测结果被广泛用于蛋白质结构信息的探测中,如归范法中的远同源探测、蛋白质模型的质量评估等。因此,准确地预测残基的包埋状态,对于提高蛋白质三维结构的预测精度具有重要作用。 本文围绕预测蛋白质的残基包埋状态开展研究,设计并实现了高阶条件随机场模型,取得的主要成果如下: (1)发现不同的二级结构类型呈现出不同的包埋模式。实验结果表明,在α螺旋上,由于其螺旋结构,包埋状态的周期为4或3,序列距离为4的残基对包埋状态相关性最强,序列距离为3或1的残基对包埋状态相关性次强。在β延伸股上,由于氢键的作用力,包埋状态的周期为2,序列距离为2的残基对包埋状态相关性最强,序列距离为1的残基对包埋状态相关性次强。无规卷曲上序列距离为1的残基对包埋状态相关性最强。因此,不同二级结构上,包埋模式的周期性不同,不同位置对具有不同程度的包埋状态相关性。 (2)发现了对包埋状态有重要影响的物理特性。通过计算各类物理特征与残基包埋率、包埋预测精度的相关性,本文发现序列保守性、结构保守性、包埋状态划分的阂值等特性对包埋状态的分布、预测都有不同程度的影响。一方面,序列保守性和结构保守性都与包埋率具有很强的正相关性,所以保守性特征对包埋预测的性能有一定程度的提升。另一方面,在将相对溶剂可及表面积离散化为二值包埋状态时,本文根据不同的标准选取三类不同的阈值,阈值的选取对模型的性能有很大程度的影响。 (3)设计了预测残基包埋状态的高阶条件随机场模型。现有的用于预测包埋状态的模型包括支持向量机、人工神经网络、条件神经场。这些模型只能直接预测目标残基的包埋状态,或者只能考虑目标残基序列上紧邻的残基的影响,却不能考虑更远的残基的影响。首先,本文设计的高阶条件随机场模型能在包埋模式周期不同的二级结构上,把目标残基附近具有强相关性的残基考虑进来。在不同的二级结构类型上,本文分别使用不同阶的条件随机场模型。该方法不仅能直接刻画相邻残基对的包埋状态的相互作用,还能直接刻画序列距离2到4个残基的残基对的包埋状态的相互作用。这些高阶特征能够引入远程信息,对局部信息起到了很好的修正作用。其次,本文还将序列保守性、结构保守性等新的重要特征作为模型的输入,使模型的性能有一定程度的提升。最后,本文还针对高阶条件随机场模型设计了相应的训练和推断方法。在训练中,通过最大化整体似然的方法来得到全局最优的参数向量;在推断中,使用极大化边际概率的方法来获得蛋白质中各个残基的包埋状态。 实验结果表明,相比人工神经网络等其他方法,本文具有更强的包埋预测性能。在不同的相对溶剂可及表面积阈值下,本文的模型都具有最好的表现。此外,通过实例分析,本文表明了高阶条件随机场模型中的高阶项能够引入远程相关性,将双向递归神经网络和链式条件随机场预测错误的位置进行纠正。基于该模型,本文开发了预测残基包埋的软件RSACRF。