论文部分内容阅读
癌症、糖尿病、心血管病以及高血压等复杂疾病严重危害着人类的健康和生命,这些疾病的发病机制往往不能通过单个基因的突变、单个基因产物或通路的行为来解释,而是与多种遗传或非遗传因素以及它们之间的互作效应有关。因此,应当从系统的角度,对复杂疾病所潜在的基因网络进行分析、研究。此外,随着基因芯片技术的日益成熟和广泛应用,出现了海量的基因组范围基因的表达谱数据,这为基因网络的构建提供了良好的机遇。然而,目前基于基因芯片数据对基因网络进行逆向重构的方法大都是目标独立的,识别的仅仅是正常生理条件下基因之间的互作关系,并没有考虑在特定生理或疾病状态下基因的互作机制。
本文提出了一种目标依赖的基因网络重构算法,构建复杂疾病特异的基因网络,并对其进行功能拓扑学分析,识别在复杂疾病发病过程中发挥中心作用的基因、与复杂疾病密切相关的细胞过程和分子功能。利用该方法分析结肠癌基因芯片数据,识别出了三个结肠癌的关键基因:IL8、DES和ENO1,并发现蛋白质生物合成通路以及核糖体相关的一些细胞组分和分子功能与结肠癌的发病机制密切相关:同时,通过对前列腺癌的分析,ANGPT1、CAV2、HPN和SLCO3A1等基因、质膜相关的细胞组分以及脂肪酸氧化过程被证明在前列腺癌的发生、发展中发挥重要作用。通过文献搜索,这些结论都得到了多方面的实验证实。着microRNA(miRNA)的发现,基因调控的研究逐渐从转录水平转移到了后转录水平,并且已经成为当今生物医学领域发展最迅速的研究方向之一。近几年,高通量的miRNA表达水平检测技术的发展,使我们可以获得所有已知miRNA的表达谱数据,这为研究基因的后转录调控以及miRNA的调控机制提供了良好的机遇。目前,miRNA的靶点预测是miRNA研究领域的重要内容之一,准确地识别出miRNA的靶基因,对于研究miRNA的后转录调控机制以及系统分析miRNA所影响的细胞功能和通路都具有非常重要的作用。本论文第一次提出了利用miRNA和mRNA的联合表达谱构建miRNA和转录因子(TF)协同调控网络的策略,不但能够识别转录因子对靶基因的转录调控关系,而且能够预测miRNA的靶基因以及miRNA和转录因子对靶基因的协同调控。
本研究利用该策略整合分析了两套在相同的89个正常和癌症样本中,相同的实验条件下分别检测的miRNA和mRNA表达水平数据,构建了基因的转录和后转录协同调控网络,并从中识别出了多个miRNA和转录因子的协同调控环路。本论文还针对基因延迟调控的普遍性,提出了一种不依赖于模型(model-free)的方法识别跨越多个时间点的基因依赖关系,将方法应用到酵母和人类HeLa细胞系细胞周期的基因芯片数据,识别出的基因时间延迟调控关系大部分(酵母:72%:HeLa:64%)得到了已有文献的支持。此外,本论文还提出了单核苷酸多态性(SNPs)虚拟相关网络的概念及构建算法,并利用SNPs的血缘一致性(IBD)数据和基因的差异表达谱数据分别构建了SNPs相关网络和基因相关网络,然后,定义并比较了这两个不同层次网络的拓扑特征和匹配程度,通过对一套人类基因表达的遗传学研究数据进行分析,本论文发现SNPs虚拟相关网络和基因相关网络都具有无尺度特性,同时,通过将SNP和基因根据连锁关系进行相互映射,结果发现12.09%的SNP互作映射到了24.49%的基因互作,这与前人的研究结果是一致的。复杂疾病特异的基因网络的构建对于疾病的早期诊断、药物靶点的发现以及系统剖析复杂疾病的发病机理具有十分重要的作用,同时,miRNA-TF协同调控网络以及基因时间延迟调控网络的构建不仅能够更深入地对基因调控进行研究,丰富目前已有的基因调控知识,还将有利于进一步挖掘复杂疾病基因网络潜在的调控机制。最后,对不同层次的分子网络进行比较和整合,将有助于我们从全局的角度更加系统地对生命的本质以及疾病的机理进行分析、研究。