论文部分内容阅读
人类基因组计划的完成标志着现代生命科学研究进入了系统生物学时代。系统生物学不仅仅是一个新兴的领域,更重要的是它代表一种对生物学研究的新方法。人们逐渐认识到在研究过程中不能仅局限于研究单个基因,而应该全面地从系统的角度去探寻这些基因之间的表达调控规律,研究整个生命系统的运行机制,最终破译生命遗传的秘密。随着高通量技术的飞速发展,大量的研究结果产生了海量的基因表达数据。如何从这些数据中发掘出具有生物意义的调控关系以及调控规律是后基因组时代人类所面临的最具挑战性的生物学问题之一。基因调控网络结构推测的目的正是从基因表达数据中构建基因与基因间相互调控关系所组成的网络结构。因此基因调控网络结构推测的研究具有重大意义。本文以基因表达数据为研究对象,以信息论为背景,针对当前基因调控网络推测方法中存在的一些问题开展基因调控网络结构推测算法的相关研究。本文主要工作概况如下:(1)针对当前大多数基于信息论的基因调控网络模型中主要采用单一网络特性推测网络结构的现状,本文将拓扑理论中的节点中心性与信息论中的互信息相结合提出了一种基于网络拓扑中心性的基因调控网络结构推测算法LDCNET。该算法首先采用互信息对基因间调控关系进行初始化和预处理。其次分别计算每一个基因的节点中心性并基于中心性对所有基因降序排列。当排序过程中出现不同基因具有相同节点中心性的情况时,依据一种基于目标基因的相邻基因节点中心性的策略对序列进行再次排序。最后依次为序列中的每一基因挑选出调控基因,并最终将所有基因的调控关系整合成完整的调控网络结构。算法在四个数据集上对其有效性进行验证,实验结果表明该算法具有良好的网络结构推测性能。(2)针对基因表达数据的“高维度、小样本”的数据特点,本文提出了一种基于最大相关最大显著的调控网络结构推测算法MRMSn。该算法将基因调控网络结构推测问题转化为为每个目标基因挑选调控基因的二分类问题。为了有效挑选目标基因的调控基因,算法给出了一种基于互信息和熵减少的特征基因挑选模型,模型提供的一阶增量搜索的算法保证了所挑选的调控基因能近似地获得模型的极优值。模型中涉及不同特征的权重问题,因此本文给出了一种基于局部密度的权重自动设定方法。最后所有基因的调控关系基于一种给定约束被调整,并整合成完整的调控网络结构。算法在五个数据集上进行有效性验证,实验结果表明该算法具有良好的推测性能。(3)基因表达数据具有高噪声及非线性相关的特性,这使得基因调控网络结构的推测具有较高的假阳性率,有必要通过冗余控制技术分别除去这些冗余的调控关系。为此本文提出了一种基于冗余控制策略的基因调控网络结构推测算法RRMRNET,该算法是MRNET算法的一种扩展。该算法首先利用一种新的基于信息论和聚类技术的冗余控制策略以减少非线性相关所引起的冗余调控关系;然后基于互信息及条件互信息为每一个目标基因分配有效的“best-first”调控基因以减少因数据噪声所引起的冗余关系。最后将所获得的每一个基因的候选基因集及“best-first”调控基因作为MRNET算法的输入并获取最终的网络结构。RRMRNET算法在六种数据集上进行有效性验证,实验结果表明冗余控制策略能有效提升网络结构准确性。