论文部分内容阅读
蛋白质相互作用预测是分子生物学中一个重要的部分。蛋白质之间的相互作用是蛋白质功能方面最重要的特征,它在生物的生命活动中起着举足轻重的作用。在蛋白质相互作用的背后隐藏着域相互作用,域是组成蛋白质的功能片段,域相互作用对蛋白质的相互作用起着较为重要的作用,因此了解在域层面级别的蛋白质相互作用对研究蛋白质相互作用网络的构建起到举足轻重的作用;二级结构是构成蛋白质高级结构的重要部分,本文将把蛋白质的一级序列以及域结构结合起来,力图提高预测准确度,共同预测蛋白质之间的相互作用。鉴于传统的生物湿实验方法具有成本高、周期长、错误率高的特点,通过计算方法预测蛋白质相互作用的干实验方法得以快速发展,并已成为辅助湿实验方法共同获得蛋白质相互作用数据的重要手段。 本文在内容上主要分为以下几部分。 首先,主要介绍了本论文涉及到的相关的概念和原理,包括蛋白质的一、二级结构,蛋白质结构域的概念,期望最大化算法,相关方法,最大似然化方法以及支持向量机算法等基本概念。 其次,本文采用EM(estimationmaximum,期望最大化)算法和MLE(maximumlikelihoodestimate,最大似然估计)方法来预测采样蛋白质之间的相互作用关系。我们从蛋白质-域关系数据库PFAM[9]中提取蛋白质和其对应的作用域信息;同时还采用了其它的研究小组通过酵母杂交实验产生的啤酒酵母蛋白质相互作用数据。蛋白质预测主要分为三个步骤:首先,通过AM(associationmethod)方法来初始化域-域作用概率;然后,通过EM算法和MLE方法来训练域-域相互作用的概率;最后,用前面步骤训练得到的域-域作用概率值计算采样蛋白质之间作用概率。实验结果表明,我们的预测结果与从MIPS[25]数据库中获得的数据有明显的重叠。基因表达谱序的相关性验证表明我们的预测结果具有较高的准确性。 第三,我们在前一部分实验的结果基础上将蛋白质相互作用抽象成为多种特征的特征向量,用SVM(supportvectormachine,支持向量机)来训练模型,我们可以应用训练模型来预测未知的蛋白质对是否存在相互作用。这一部分涉及到支持向量的设计,反例集构造以及参数的选择等问题。最后,根据实验样本和生成的模型,构建了一个小型的蛋白质网络。 再次,介绍了本论文的各个实现算法的演示系统,包括:AM初始化,EM-MLE算法,SVM算法,MIPS和相关验证等实验。 最后,对蛋白质相互作用预测的前景进行了展望,探讨了该领域的进一步发展方向。