论文部分内容阅读
蛋白质loop区的结构预测是理解蛋白质功能的重要一环,为此目前已发展出多种loop区结构预测的算法,但对于较长loop区的预测迄今还是生物信息学中的难题。在目前的预测算法中,LEAP是具有最高预测精度的算法之一,但它在长loop区初始主链构象采样上仍有较大的改进余地。LEAP算法的初始主链构象的采样依据是较粗略的主链扭转角分布图(拉氏图),未能计及特定loop区的序列信息,在采样时极有可能得到大量偏离天然构象的主链构象。我们的分析表明,仅通过增加计算时间来提高采样充分性,无法显著提高最终的预测精度。为此,将蛋白质二级结构预测算法SPINEⅩ的预测结果与LEAP算法中的拉氏图结合起来,构建出新的拉氏图,在初始主链构象采样中引入氨基酸在蛋白序列中的位置特异性信息,使得初始构象的采样更具针对性。对取自CASP10单链蛋白的loop测试集的分析表明,对长度为10,11,12的长loop区,就预测精度RMSD的中位值/平均值而言,改进算法比原始算法的预测精度分别有0.12(A)/0.13(A),0.25(A)/0.27(A),0.47(A)/0.27(A)的提高,并且预测更准的概率也提高了1倍左右。这种引入氨基酸位置特异性从而提高预测精度的思路有望进一步推广至loop结构预测的其它算法。