论文部分内容阅读
在后基因组时代,随着海量生物学数据的产生,计算生物学越来越多的将焦点聚集在如何从各种数据资源中挖掘出有价值的信息,从方法学角度实现对未知基因性质和功能的预测。比如,通过蛋白质之间的互作,基因表达谱等信息进行基因功能预测。
GO对现有的已知功能基因的注释表明,功能类中的基因可以被注释到更加具体的功能类中既父节点中的某些基因能够继续向下注释到其子节点中。由于现在基因功能研究的不完备性,对很多基因功能的认识尚不清晰,大多数已知功能的基因被注释在GO比较上层(抽象)的节点中。因此非常有必要将基因的功能在GO中作进一步的深化预测,注释到更具体的功能类中。基于这种想法,我们提出了一种结合GeneOntology(GO)知识体系选择与实验条件相关性较大的功能类,深化预测已知部分较粗略功能的基因到更具体的功能的分析策略。根据差异表达基因是否在GO中某些基因功能类中非随机性地聚积或者功能类中基因是否显著性地共表达,选择与实验条件相关性较大的功能类,再进一步预测迄今仅注释到在这些功能类的上层结点的基因是否可以深化注释到相应的实验条件相关功能类中。
然而基因功能分类体系中具有大量的功能类(节点),并不是所有的功能类都是可判别的.因此我们进一步发展了深层预测的思想,结合蛋白质互作信息,将深层预测思想与选择可预测分类空间的思想相结合,文中称之为基于可分类空间的深层预测。首先在每个候选预测空间建立分类器,然后对每个候选预测空间进行评价,只有评价指数大于一定阈值的候选预测空间可以作为真正的预测空间继续进行基因功能深层预测。