论文部分内容阅读
许多生命活动都需要蛋白质与RNA分子之间的特异相互作用,如生物体中基因表达的调控,细胞功能的实现等。因此,蛋白质-RNA相互作用的研究及结合位点的预测对理解蛋白质-RNA特异性识别的分子机制具有重要意义,并且能为分子对接和药物设计提供理论基础。 由于采用实验方法预测蛋白质-RNA的结合位点耗时且费力,因此近年来,研究者们开始着力于发展能够准确识别蛋白质-RNA结合位点的理论计算方法。基于蛋白质一级序列和三维结构的预测方法已经成为研究蛋白质与RNA相互作用和识别的重要手段之一。在之前的工作中,课题组提出了一种识别蛋白质-蛋白质复合物界面模块的方法。在本工作中,基于上述方法,对蛋白质-RNA相互作用进行了研究,研究内容分为两个部分:第一部分主要通过对69个非冗余非核糖体的蛋白质-RNA复合物的研究,提出了有效识别蛋白质上结合RNA模块的方法:第二部分将识别出的蛋白质上的结合模块信息用于蛋白质-RNA复合物结构预测,大大提高了构象搜索的有效性及预测成功率。两部分具体内容如下: 1.提出有效的蛋白质-RNA界面模块识别方法PPQA 基于课题组之前的工作,提出了蛋白质上结合RNA模块的识别方法。在该方法中,首先对己知的蛋白质三维结构进行模块划分,获得表面模块;之后考虑表面模块内部的接触和对外的暴露程度(即模块内部残基间的接触面积,和模块的溶剂可接近表面积),以及它们的界面偏好性,给出了三者的乘积作为模块的参数(这里简写为PPQA);最后将这些表面模块按照该参数值的大小从高到低进行排序,考察界面模块在所有表面模块中的排位。在对69个非冗余非核糖体,且受体和配体均是单链的蛋白质-RNA复合物的统计研究中,发现69个中有63个复合物其受体蛋白质上具有最大或次大PPQA参数值的表面模块是界面模块,占总体的91.30%,远远高于随机挑选界面模块方法(60.87%)和之前课题组提出的用于识别蛋白质-蛋白质界面模块的方法(79.71%)。由此确定将受体蛋白质上具有最大和次大PPQA参数值的表面模块识别为界面模块。该方法表明,蛋白质表面模块中,那些界面偏好性越大,内部接触越紧密,且表面暴露越充分的模块(即模块的PPQA值越大)越容易出现在界面上。以上结果说明可以利用该蛋白质模块划分,及模块参数PPQA来有效地识别蛋白质上结合RNA的界面模块。进一步的分析表明该方法更适用于接近球型的受体蛋白上RNA界面模块的识别。 2.将蛋白质-RNA界面模块PPQA识别方法用于复合物结构预测 在此部分工作中,进一步将以上提出的蛋白质-RNA界面模块PPQA识别方法用于蛋白质-RNA复合物结构预测上。测试数据来自David Baker小组根据复合物体系大小及界面不同特征获得的5个蛋白质-RNA复合物结构。去除核糖体及单体为多链的分子后,我们的测试数据为PDB ID是1FXL和1JID的两个复合物结构。首先用PPQA方法来识别蛋白质上结合RNA的界面模块,对每个蛋白质认为具有最大和次大PPQA参数值的表面模块是界面模块。利用课题组基于FTDock对接方法提出的生物信息加强采样的BESDock方法对蛋白质-RNA进行分子对接,用识别到的界面模块信息约束采样,然后用课题组提出的RPveScore组合打分函数来评估对接结构。结果发现,与不考虑结合界面信息的对接相比,该信息的考虑使得采样结果中近天然结构的占比有明显的提高,对体系1FXL和1JID,提高分别为1.02倍和5.63倍。打分排序后近天然结构的排名也有改善,对体系1FXL,近天然结构的最好排位两种情况下均为第一;对体系1JID,近天然结构的最好排位从50升为31。上述结果改进的原因在于BESDock分子对接时,PPQA方法识别到的界面模块信息可以有效缩小分子对接的采样范围,从而提高复合物结构预测的成功率。 提出的基于模块化的蛋白质-RNA结合位点预测方法PPQA不同于传统的基于残基的预测方法,为蛋白质-RNA复合物结合位点的预测提供了新思路,并且该方法可以有效地帮助蛋白质-RNA复合物结构预测。