论文部分内容阅读
径向基函数神经网络(RadialBasisFunctionNeuralNetworks,RBFNN)是一种模拟人脑局部调整、相互覆盖接收的典型前馈神经网络模型,与传统神经网络模型相比,具有更强的非线性映射和边界区分能力,并且以其简单的拓朴结构、快速的训练算法和较好的推广能力被广泛应用于模式识别和函数逼近等领域。特别是在近二十年来,在解决诸如蛋白质结构预测(ProteinStructurePrediction)、残基作用关系图谱(Inter-residueContactMap)研究,以及残基构象分布研究等领域发挥了重要的作用。本文主要针对径向基函数神经网络模型在蛋白质微构象(Micro-ConformationalStructure)预测与分析中的应用开展了较为系统和全面的研究,在介绍径向基神经网络的分类机理、结构优化、参数选取等基本问题的基础上,重点对径向基函数神经网络的蛋白质二级结构预测(SecondaryStructurePrediction)、残基空间距离(Inter-residueSpatialDistance)研究、残基作用关系谱研究等蛋白质微构象分析方面进行了深入的探讨。全文的要点为:
1、基于氨基酸构象信息和径向基函数神经网络的蛋白质二级结构预测:文中详细介绍了蛋白质结构预测,特别是二级结构预测的现状及各种方法的比较,然后重点研究了基于氨基酸构象偏性(ConformationProspensity)和径向基函数神经网络模型的蛋白质二级结构预测。在充分考虑各构象特征对蛋白质二级结构贡献程度的基础上,利用蛋白质数据库(ProteinDataBank,PDB)中已知结构蛋白的结构数据,对20种不同氨基酸残基对不同类型二级结构的构象偏性进行了统计分析,并将其分别归类为相应二级结构的支持子(Former)、中性子(Neutral)和断裂子(Breaker),同时还利用这些构象信息来重构氨基酸残基的主特征向量,将原有的特征向量维数由22位增加到25位,然后再把该特征向量耦合到径向基函数神经网络的输入编码中去,较好地提高了RBFNN模型在蛋白质二级结构中的预测精度。
2、蛋白质残基空间距离预测研究:残基空间距离作为蛋白质二级结构预测的一个重要模式特征,对有效提高RBFNN预测蛋白质结构的精度有着非常重要的作用。目前蛋白质结构预测的瓶颈在于:我们对蛋白质一级序列中的残基间远程(Long-Range)作用(或长程作用)的作用机理还不很清楚,对蛋白质折叠过程中的构象规律还没有完全掌握。如在蛋白质折叠过程中,序列距离(SequenceSeparation)相隔较远的残基对(ResiduePairwise)在三维空间中却有可能相距较近,这说明该基对中的两个残基在蛋白质折叠过程中,可能存在着某种相互作用,从而影响着蛋白质结构的生成。为此我们利用径向基函数神经网络模型,来对蛋白质残基空间距离进行预测,取得了较好的结果,为进一步把这些信息耦合到蛋白质结构预测的主特征向量中打下了基础。
3、基于二进制编码策略和RBFNN的残基作用图谱研究:残基作用图谱(ContactMap)实质上是残基空间距离研究的一个深化,也是蛋白质微构象研究的另一个重要内容,在蛋白质结构预测分析中具有重要的作用。如在RBFNN模型的输入编码中耦合上述构象信息,就有可能较好地提高蛋白质结构预测精度。本文重点研究了RBFNN在残基作用谱预测中的应用研究,提出一个新的二进制编码策略,分别用一个8位二进制串编码可能的残基对(PossiblePairwise)、4位二进制串来编码残基分类信息(ResidueClassication)、3位二进制串来编码残基相应的二级结构信息(SecondaryStructure)、3位二进制串来编码蛋白质序列长度(SequenceLength)、以及用一个2位二进制串来编码残基对的序列距离(SequenceSeparation),同时还把上述的编码信息耦合到径向基神经网络的输入编码中,并结合遗传算法优化RBFNN模型进行残基作用图谱预测研究。
4、深入研究了径向基函数神经网络的结构优化和参数选取问题,在传统的K-均值和最小二乘算法的结构优化基础上,采用遗传算法来对RBFNN模型的隐中心数目和激活函数的感知宽度进行全局寻优,较好的提高了径向基函数神经网络模型的推广能力,使之在蛋白质微构象分析此类的非线性模式匹配问题上的寻优能力有了较大的提高。