论文部分内容阅读
蛋白质是重要的生物大分子,执行催化、免疫、受体结合等生物学功能。蛋白质是以氨基酸为基本单元形成的一条或多条长链。在自然环境中,蛋白质呈现的不是随机的松散构象,而是会自发折叠成自由能最低的空间结构构象,即天然结构构象。 由于蛋白质的功能在很大程度上由其结构所决定,因此揭示蛋白质结构具有重要意义。当前测定蛋白质结构的实验方法主要包括核磁共振、晶体衍射以及冷冻电镜技术。然而,用实验手段测定蛋白质结构通常比较耗时,实验成本较高,能够测定的蛋白质范围也比较受限,从而导致实验测定的速度远远跟不上蛋白质测序的速度。因此,使用计算手段预测蛋白质结构,不仅能够补充蛋白质结构测定的不足,同时有助于对蛋白质折叠过程的认识,具有重要的学术价值和实际意义。 对蛋白质结构的准确预测依赖于对蛋白质结构的深刻认识,包括稳定蛋白质结构的关键结构模体,以及刻画蛋白质结构热力学稳定性的能量函数等。本文围绕着蛋白质结构预测问题,主要研究了蛋白质结构中的关键结构模体识别问题,以及能量函数设计和度量问题,取得了如下成果: 1.识别了稳定蛋白质结构的关键“序列-结构”信号;对于螺旋区域,我们发现Ai-Ai+3和Ai-Ai+4残基对具有显著的高几率比,从而表明螺旋区域中存在强信号,进一步的分析表明螺旋单圈上经常出现的残基对是疏水残基对和负电-正电残基对;对于转角区域,尤其是β发卡区域,我们发现了显著的邻近结构码模式,并且甘氨酸和脯氨酸具有显著的结构码倾向性;对于空间上相邻、但是序列上不相邻的两个二级结构单元,我们发现了特定的结构模式,用H型模体刻画了其结构几何,并建立了H型模体数据库。这些类型的强序列-结构倾向性信号可能会主导折叠过程。 2.提出了一种改进能量函数设计的优化方案;通常势函数中包含多达数十个能量项,每个能量项刻画蛋白质结构稳定性的一个侧面。然而如何对能量项合理加权,是影响能量函数性能的一个重要问题。本文采用“逆向采样”策略和线性规划技术,设计了一种新的蛋白质能量函数项加权方案,实验结果表明改进后的能量函数能够有效提高从头预测法的效率和精度。 3.提出了一种势曲面“崎岖”程度的度量方法;本文提出了使用在给定步数内到达目标状态概率来度量势曲面的方法,并给出了计算该度量的计算方法。在Max-3SAT问题上的实验表明:采用动态先验分布进行逆向采样的方法,能够有效估计势曲面的“崎岖”程度。 通过对蛋白质结构的关键模体的探索中,本文提出了“精英驱动蛋白质折叠”观点,即从全局视角来看,蛋白质的序列与其天然结构的关联并不强;然而在某些区域,局部序列片段会带有较强的局部结构倾向性;此类区域可能启动蛋白质折叠过程,并且通过显著降低蛋白质结构构象的搜索空间加速蛋白质折叠过程;同时,弱信号区域也是不容忽视的,是允许蛋白质折叠发生的必要条件。 对势函数的探索,以及上述学术观点的建立,将对蛋白质结构预测提供积极的指导作用。