论文部分内容阅读
蛋白质互作在生物学进程中起着重要的作用,因为任何蛋白质要发挥功能就必须与其他的生物分子发生互作。随着高通量检测技术的发展,产生了大量的蛋白质互作数据,因而成为生物信息学的重要研究对像。由蛋白质数据构建成的蛋白质互作网络,被广泛地应用于蛋白质复合物或功能模块的鉴别,生物学通路的构建等各个方面。然而,现有的蛋白质互作数据不能提供时空信息,只知道两个蛋白质会发生互作,而不知道在某个特定的实验条件下这个互作能不能发生。另一方面,基因芯片可以检测成千上万个基因在某个特定的实验条件下的表达情况。因此,本课题就是要结合特定实验条件下基因表达谱从蛋白质互作网络中提取该实验条件下特定的应答子网。对实验条件相关的蛋白质互作子网的研究将有助于了解生物体在特定实验条件下的应激过程的内在机制。
实验条件应答的生物学通路中富集差异表达基因,并且这些基因具有高度表达一致性。基于这样的假设,利用相关系数及协方差,取显著性水平0.05,分别抽提出子网。结果表明找出的应答子网与当前实验条件有很好的吻合,具有一定的合理性和可解释性,并能提供出更多的提示性的信息,有助于揭示生物体适应环境改变的内在机制。然后,提出了基于边的全局搜索策略,从蛋白质互作网络中抽取子网。不同于现有打分函数的方法将子网的应答性定量为分值,打分过程是基于边的打分从而实现比较充分地考虑了子网的性质,搜索过程中使用了基于边的模拟退火技术来寻找分值较高的子网。
将提出的方法应用到两套基因芯片数据,一套是人类前列腺癌数据,一套是酵母的细胞周期相关的的数据。结果表明,基于边的方法能够有效地提刻画出在特定实验条件下蛋白质之间的互作行为。