论文部分内容阅读
基因调控网络是几乎所有生物过程的核心。在特定的条件下,基因表达的特异性启动或停止,增强或抑制,是细胞选择基因组中的调控元件和相互作用完成基本生命活动以及对外界刺激作出应答的分子基础。而且组织和细胞特异的基因调控塑造了不同的表型,是健康和疾病研究的基石。阐明基因选择性表达所依赖的调控信息及其相互作用的分子机制,需要对基因调控网络进行建模。针对转录因子等反式调控元件和增强子等顺式调控元件在特定的细胞环境下怎么合作使得一个基因快速转录这一核心问题,本文从基因调控的两个核心的元件转录因子(TF)和染色质状态出发,从他们单独对基因调控的影响及它们的合作对基因调控系统的影响进行建模,并且用推断的组织特异的基因调控网络来注释疾病等表型相关的遗传变异。得到的结果主要包括: 1,对转录因子活性构建模型并用于推断基因调控网络。基于TF结合DNA的量取决于TF本身的浓度之外还取决于跟他相互作用的辅因子的表达量的事实,提出了一个概率图模型及其计算方法,集成基因表达数据和蛋白质相互作用数据对TF活性进行估计进而重建基因调控网络。 2,对染色质调控因子对转录过程的调节作用进行建模。研究了染色质调控因子和转录因子的合作通过染色质活性对基因调控的影响,在数学上引入条件相关刻画了染色质调控因子通过调节染色质结构,建立和维持表观遗传修饰,对于连接染色质水平和转录组水平起到的重要作用。提出了一个统计模型和计算框架,可以从基因表达数据系统预测染色质活性对转录调控的调节作用。 3,从匹配的基因表达数据和染色质可及性数据,对染色质状态和基因表达同时进行建模,构建了顺式调控元件和反式调控元件一起解释基因表达的基因调控网络。对转录调控的三个关键环节进行建模。一,基于染色质调控因子(CR)与序列特异性TF的相互作用推断CR与调控元件(RE)的结合。二,基于CR的结合和RE的可及性,预测RE的激活状态。三,基于激活RE上结合的TF预测靶基因的表达。 4,用推断的基因调控网络注释数量性状位点QTL和全基因组关联分析GWAS研究给出的非编码区域变异,探索基因型和表型之间的复杂映射。用基因表达数据,染色质可及性数据和推断的组织特异的基因调控网络来注释这些突变的位点,识别非编码调控区域的突变影响的关键分子、相互作用和功能,从而为其与表型之间的联系从分子机理上给出解释。