论文部分内容阅读
为每一个单个的蛋白质预测功能是生物信息学领域一项既重要又非常困难的工作,近几年,一些自动化方法的提出使得功能预测取得了一定的成果。然而,目前的蛋白质功能注释信息是片面的,不够全面的,这就为利用已有的功能注释为未知蛋白质预测功能造成了困难。传统的功能预测方法,无论是同源性搜索,还是其他基于高通量数据的方法,都是在寻找未知功能蛋白质与已知功能蛋白质之间的联系,然后根据这种联系为未知蛋白质预测功能,但是,现有的蛋白质功能注释信息本身是不完善的,基于这些信息预测的未知蛋白质功能信息也就同样不可能是完善的。因此,如何扩展现有的功能注释是与未知蛋白质功能预测同等重要的工作。考虑到这一点,在我们的课题中,提出了一种新的功能预测的策略,通过寻找不同功能之间的联系来代替蛋白质与蛋白质之间的联系,以达到扩展现有功能注释的目的。
我们相信,没有任何功能是单独发挥作用的,一个功能会与其他多个功能协作完成同一项任务,从另一个角度看,这使得一个蛋白质可能同时具有多个功能。利用这一点,可以识别相关的蛋白质功能,并可以利用蛋白质序列层面信息判断什么情况下不同功能倾向于共同发挥作用。GeneOntology(基因本体论)详细的功能分类体系为分析功能之间的联系提供了便利,在我们的课题中,我们利用GeneOntology探讨功能之间的联系,并利用这种联系做两件事情:预测已知部分功能的蛋白质是否会具有其他功能;为蛋白质预测更加详细的功能。通过这两种方式,可以达到扩展现有功能注释的目的。
蛋白质序列信息是目前最广泛的数据,利用序列层面的信息可以在最大程度上为蛋白质预测功能。如果某一蛋白质序列或结构中的一部分具有保守性,这种保守性或者与蛋白质的生物活性有关,或者与蛋白质的折叠方式有关;那么这种特征模式就可以用来识别该蛋白质功能,而具有相同序列模式的蛋白质也应该具有同样的功能。但是蛋白质序列与蛋白质模式存在着多对多的关系,往往一个蛋白质属于多个序列模式,而一种序列模式又经常在多个不同功能的蛋白质中出现,这使得序列模式分析变得困难。显然,在这种情况下,收集、分析和评价序列中所包含的信息需要数据挖掘技术的参与。模式识别的基本思想是利用存在于蛋白质序列或结构中的某些特征模式识别相关蛋白质的性质。在这里,我们采用决策树算法,根据蛋白质序列所含有的多个序列模式和结构模式信息,综合判断一个蛋白质的生物学功能,并取得了很好的分类效能。