蛋白质分子中RNA结合位点的分析和预测

来源 :中国人民解放军军事医学科学院 | 被引量 : 6次 | 上传用户:wang5632968
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
蛋白质与RNA的相互作用广泛存在于RNA剪切、翻译、病毒的复制以及细胞中的其它生物学过程中。因此,探讨蛋白质与RNA相互作用并确定蛋白质中与RNA结合的氨基酸残基,对于理解蛋白质与RNA之间的相互作用机制具有重要意义。目前,对这一问题的研究主要从实验与生物信息学两个方面入手。从实验上看,主要是通过X射线晶体衍射、核磁共振等方法得到蛋白质与RNA复合物的三维结构信息。基于三维结构信息进一步确定与蛋白质中与RNA相互作用的氨基酸残基。实验的优点是结果可靠,缺点在于时间和经费方面的花费较大,并且在具体实施时,还面临着不少实际问题。例如,某些蛋白质-RNA复合物结晶很难获得。随着蛋白质结构数据的增多,研究人员开始尝试从生物信息学角度出发对这个问题进行研究与分析。从研究途径看,可以分为通过RNA结合结构域来判定、通过分子动力学模拟来判定以及通过统计分析或者机器学习方法来判定这3个方面。对于结构域方法来说,我们可以通过SCOP等蛋白质结构数据库搜索并确定蛋白质中RNA结合结构域所在的位置,从而大致确定该蛋白质与RNA的结合位点。但结构域方法的缺陷在于仅适用于已测定了RNA结合结构域的蛋白质。此外,目前对RNA结合结构域的作用机制尚未完全阐明,存在着结构域中的氨基酸残基不与靶标RNA区域结合,而是结合到其它区域,甚至导致该蛋白质结合到另一个蛋白质上的情况。另一种寻找RNA作用位点的方法是分子动力学模拟,该方法能够较为直观的观察到蛋白质与RNA的结合过程,以及这个过程中一些能量和构象上的变化。但该方法的缺陷在于模拟耗时较长,仅适用于小规模体系。此外,各种参数的设定也对模拟结果的正确性有影响。从目前来看,如果从生物信息学角度出发对该问题进行研究,比较适合的途径是通过提取各种特征,利用机器学习方法构建模型来判别。随着近几年,特别是2005年以来,蛋白质-RNA复合物三维结构数据的增多,为采用这一方法对该问题进行研究提供了数据基础,逐步有研究人员基于这些数据,开始了相关的研究工作。然而,先前的研究存在着如下缺陷:①数据量小,有的工作仅基于十多例数据,得到的结论可能存在偏性;②关注的特征较少,有的工作仅关注某一个或者某一方面的特征;③有些特征需要从三维结构数据中获取。或者是比较复杂、难以计算的理化特征,限制了其应用。针对以上研究存在的缺陷,我们认为,目前还缺少这样一个结合RNA的氨基酸位点预测模型:①该模型基于大规模数据构建,以避免得到可能存在偏性的结论;②构建模型时应该综合考虑各种特征,以提高其分类精度;③构建该模型所依赖的特征,应该能够从蛋白质序列中获取或者计算得出,这样构建的模型才具有实用性。为此,我们首先从PDB数据库中提取了截止至2011年6月,所有的经X射线晶体衍射测定的、分辨率大于3、仅含有蛋白质与RNA的复合物数据,共计532个。去除90个核酸序列过短(长度小于等于4)或者序列存在错误的复合物数据后,剩余442个复合物数据,共包含1970条蛋白质序列以及823条RNA序列。由于蛋白质相似性较高,为了避免数据冗余,我们采用BLASTClust程序对其中的蛋白质序列按照序列相似性不超过25%的阈值进行了聚类。BLASTClust将其聚为了429类。对于每一类,我们选择其中的第一条序列作为该类的代表。这样我们得到了429条蛋白质序列,共包含90735个氨基酸残基。我们基于PDB结构数据,采用距离定义法来确定与RNA相互作用的氨基酸位点。即对于蛋白质与RNA复合物中的某个氨基酸,如果其包含的至少一个原子与某个RNA碱基所包含的任何一个原子之间的距离小于3.5,那么就认为该氨基酸与RNA相互作用。这样,在90735个氨基酸中,有10525个被判定为RNA结合位点,其余的80210个被判定为非结合位点。确定作用位点后,对于每一个氨基酸,我们分别提取如下9大类共计150个特征:①氨基酸所包含的原子数;②氨基酸所带的静电荷值;③氨基酸所包含的氢键数目;④侧链pKa值;⑤疏水性;⑥相对溶剂可及表面积比例;⑦氨基酸所处的二级结构构象;⑧改进的PSSM矩阵;⑨基于偶极矩与侧链体积的氨基酸分类。我们利用我们编写的TClass分类程序,基于Na ve Bayes方法和前向特征选择策略自动进行特征筛选与模型构建。以留一交叉法验证精度为目标来判定所构建模型的性能。此外,我们还采用了属性bagging方法进行了集成学习,以进一步提高模型性能。在独立测试集上的测试表明,我们所构建的模型分类精度为83.46%,特异性为84.33%,敏感性为78.55%,具有较好的性能。我们还将我们构建的模型应用于分析Xlrbpa蛋白,所预测出的结合位点与其经过实验测定的RNA结合位点有很好的重叠,证实了我们工作的实际有效性和可应用性。通过分析各种特征的取值与RNA结合偏好性之间的关系,我们发现了如下结论:①RNA对氨基酸具有强烈的结合偏好性,最受欢迎的氨基酸(Arg)比最不受欢迎的氨基酸(Cys)在出现次数上相差38倍;②亲水性氨基酸(如:Arg、Lys等)比疏水性氨基酸(如:Cys、Met等)更受欢迎,两者之间在出现次数上相差4.38倍;③从R基团极性和静电荷值看,极性带正电荷的氨基酸(例如:Arg、Lys)最受欢迎,非极性的氨基酸最不受欢迎(例如:Trp、Met、Phe等);④从基于偶极矩与侧链体积的氨基酸分类来看,偶极矩大于3.0德拜,侧链体积大于503的氨基酸(如:Asp、Lys)比较受欢迎,而偶极矩大于3.0德拜,但方向相反的氨基酸(如:Asp、Glu),不受欢迎。为了方便相关实验人员的使用,我们基于所构建的分类模型,利用MATLABBuilder JA、MySQL和JSP开发了在线预测服务器RBRPre。用户仅需提交蛋白质序列,即可通过Email获得该蛋白质序列上结合RNA的氨基酸位点。同时,我们还通过crontab定时机制与MySQL数据库,对预测任务进行排队与调度,避免了可能的高并发预测任务带来的拥堵。综上所述,该研究通过大规模的收集蛋白质-RNA相互作用数据,较为综合地考虑了相关特征,构建了蛋白质中结合RNA的氨基酸位点预测模型,分析并发现了各种特征的取值与RNA结合氨基酸偏好性之间的关系。经过独立测试集测试和相关实例研究表明,该预测模型具有较好的性能。基于构建的预测模型,我们还开发了在线预测服务器RBRPre。这一工作的开展,获得了如下结果:①使得相关研究人员能够在仅知道蛋白质序列的情况下,获得比较可靠的蛋白质与RNA相互作用的位点信息,并且具有较高的可靠性。②通过分析氨基酸各种特征对RNA结合偏好性的影响,为蛋白质-RNA相互作用机制的研究提供了有用的信息。③构建了在线预测服务器RBRPre,为研究人员获得与RNA结合的蛋白质位点提供了较好的生物信息学支持,加快了实验进程。该工作的特色及创新点在于:①该模型的构建,使得相关研究人员在仅知道蛋白质序列的情况下,就可以获得较为可靠的RNA结合位点,具有很强的实用性。同时,所构建的在线预测网站RBRPre,能够为相关研究人员提供方便快捷的预测服务。②数据规模较大,特征覆盖较为全面,避免了小规模数据基础上得到的可能有偏性的结论,独立测试集及实例分析表明,预测结果真实可靠。③确定了20种氨基酸结合RNA的偏好性,以及确定了氨基酸不同特征对结合RNA偏好性的影响。
其他文献
PLC系统硬件技术成熟,性能价格比较高,运行稳定可靠,开发过程简单,维护成本低,在工控领域广泛应用。本文详细介绍了PLC的主要功能、应用领域和特点,并对PLC的发展前沿做了翔
五月,一个风调雨顺、杜鹃盛开的季节,一个盛满着希望和期待的季节。
目的:探讨阴道微生态、高危型人类乳头瘤病毒(High-risk human papillomavirus,HR-HPV)感染与宫颈疾病发生发展的关系。方法:选取从2018年1月至2018年6月在自治区人民医院妇科门诊就诊,自愿行宫颈癌筛查(HPV、TCT联合检查)的妇女为研究对象,对其进行阴道微生态(五联酶法)、宫颈液基细胞学(TCT)及高危型HPV检测(HR-HPV)。按纳入排除标准筛选出156
南方红豆杉(Taxus chinensis(Pilger)Rehd.var.mairei(Lemee et Levl.)Cheng et L.K.Fu)体内富含紫杉醇,为人工培育红豆杉资源的主要目的树种,本研究通过分析不同紫外线B(UV-
道路桥梁施工过程中经常出现桥梁裂缝的质量通病,需要对裂缝产生的原因进行分析,才能针对性的采取防治措施。本文对道桥工程中结构性及非结构性裂缝的特点进行了概述;对桥梁
在电子工业领域,采用胶粘剂可以满足电子产品微型化、集成化、智能化的发展趋势。有机硅胶粘剂以其优异的电绝缘性能、良好的化学稳定性及低应力特性,广泛应用于电子元器件的
随着RFID技术在公共图书馆中应用的不断发展与深入,一些技术和管理服务方面存在的缺陷逐渐显露,如在自助借还、自助定位、安防管理方面无法完全满足图书馆和读者的需求。文章
本文基于对TOD"以公共交通为导向的发展模式"和城市公共空间设计理论的深入理解,探讨了TOD的发展模式,TOD背景下的城市公共空间设计,接着以徐州市铜山路站的周边用地的概念性
通过踢毽教学,可以让学生学习到与踢毽活动有关的知识和技能,促使学生养成锻炼身体的良好习惯。对踢毽教学在小学体育课中的实施情况进行分析,并就其实施策略进行探讨。
随着我国科技的发展与进步,新媒体的出现给传统媒体传播市场带来了巨大的冲击与压力,广播电视也面临着巨大的挑战与压力。本文以全媒体环境下广播电视面临的问题为研究对象进