论文部分内容阅读
基因表达调控对于理解生物的生长发育规律、形态结构特征和生物学功能极为重要。一个活细胞的复杂功能主要通过许多相关基因及其产物相互作用实现,而这些参与相互作用的基因往往呈现出模块化的协作关系。同时,随着表观遗传学的兴起,作为调节基因表达的主要表观因子一组蛋白修饰以及组蛋白密码问题的研究日益成为表观遗传学的热点。本文主要从这两个方面研究酵母基因的表达:一方面根据基因表达数据利用聚类方法确定基因的共调控模块;另一方面根据组蛋白修饰模式对基因表达产生的影响,利用关联规则算法揭示组蛋白密码。
调控模块通常是指由调控程序所控制的一组基因。确定调控模块的第一个步骤首先要对基因的表达数据进行聚类。由于K-均值、层次等聚类方法都需要输入聚类数目或其它经验参数,无法达到理想的聚类效果。为了解决这个问题,有人提出采用各种验证指标去评估聚类质量的好坏,然后调整聚类数目,再评估,直至达到理想聚类效果。这种方法在聚类数目很少的情况下有效,但当聚类数目很大时这种方法无法实现。根据这种情况,我们提出了一种基于相关系数的聚类方法,在无需输入聚类数情况下,获得了24个具有生物学意义的调控模块,并找出了它们显著的共调控转录因子。以上调控模块建立在数据集全部实验条件下,但有些基因表达只受其中部分条件影响,其中有些条件不起作用,只增加了一定数量的背景噪声。针对这种情况,以往一般采用双聚类的方法,即求出在一定的条件集合下共调控基因集。但其对时序表达数据无法聚类,为此我们提出一种简单有效的基于集合的聚类算法,既能实现对压力数据的双聚类又能实现对时序数据的聚类。
真核基因组由组蛋白包装成染色质,并且它们的化学修饰可以影响基因的表达。组蛋白修饰通常以组合方式起作用,且不同组合对基因表达产生不同的影响。尽管已有多种实验技术和数据分析方法去研究组蛋白修饰,但要在基因组范围内确定组蛋白修饰点之间的关系仍然非常困难。我们基于关联规则挖掘算法提出了一种确定组蛋白修饰组合效果的方法。这种方法首先确定'起作用的修饰事务'(FMTs),然后应用关联规则挖掘算法和统计方法确定组蛋白修饰模式。我们将该方法用于具有8个修饰点的Pokholok数据和具有11个修饰点的Kurdistani数据。我们的方法成功地揭示了基因组范围内两个不同的组蛋白修饰图谱,并且确定了一些由相关文献证实的修饰模式。我们主要关注对基因表达有显著影响的组蛋白修饰组合。提出的方法除了确定已知的修饰模式外,还揭示了许多未知的模式。经过深入分析组蛋白修饰影响转录状态的几种可能的机制,我们推导出三种可能的修饰模式读码机制(‘冗余',‘无关',‘支配')。我们的结果还表明一些修饰模式在人类细胞和酵母之间有很大的相似性。