论文部分内容阅读
基因重复广泛存在于生物各大类群和进化的不同阶段,是一种持续发生的进化现象,为进化提供了大量的原材料。全基因组重复(又称多倍化)可以同时产生大量重复基因,是重要进化事件,广泛存在于真核生物特别是被子植物进化过程。研究表明,全基因组重复可以促进物种分化以及生物新功能的产生,并且可以提高生物在大规模灾变事件中的生存率和适应性。表达是联系基因型与表型的中间环节,基因表达模式的改变在生物表型和功能进化过程中起着十分重要的作用。对重复基因功能分析发现,表达调控基因在全基因组重复后有很强的保留偏性,而在小规模重复后则倾向于丢失。这种偏性提示了全基因组重复在表达调控进化中的作用。基因平衡假说(Gene Balance Hypothesis)认为,剂量平衡约束是产生这种保留偏性的主要动力,直接将表达水平与重复基因的命运联系起来。因此,对全基因组重复基因表达分化及其影响因素进行系统分析是进一步深入研究重复基因进化机制的基础。本研究以拟南芥全基因组重复基因为对象,整合全基因组数据、大规模表达数据以及功能注释数据,系统分析了重复基因的表达分化样式,比较了其中转录因子和非转录因子重复基因表达分化样式的差异,考察了重复基因上游调控序列相似性对表达分化的影响。
对重复基因表达相关性分析表明,转录因子重复基因的表达相关性显著高于非转录因子基因,这一差异在近期的α基因重复和较早期的β和γ全基因组重复中是一致的。转录因子有更高的表达相关性,与基因平衡假说预期一致。同时,较早期产生的重复基因表达相关性显著低于近期产生的重复基因,这一趋势在转录因子和非转录因子基因中是一致的,表明随着进化时间的延长重复基因的表达分化程度也在不断增加。近期重复基因中转录因子与非转录因子表达相关性的差异明显高于早期重复基因中的差异。对表达模式的分析表明,转录因子重复基因更倾向于在较少样本中表达,表现出更高的特异性,而且转录因子基因更多表现出互补和不对称的表达模式,转录因子基因的这种特性在早期全基因组复制基因中表现的更明显。
通常认为,处于相同的反式作用环境中,重复基因的表达分化由顺式作用元件的分化所导致。而基因上游调控序列集中有大量顺式调控元件,因此我们进一步分析了上游序列分歧在重复基因表达分化中的作用。我们应用不依赖于序列比对的基于序列字串特征的DZ2分数,考察了重复基因上游调控序列分歧与表达分化之间的关系。发现拟南芥全基因组重复基因上游序列相似性与表达相关性存在一致的差异式样,而且两者之间存在显著的正相关关系。我们应用线性模型进一步分析了转录因子与非转录因子重复基因上游序列相似性差异对其表达相似性差异的贡献,发现上游序列相似性差异无法完全解释表达相似性的差异,表明上游序列分歧可以在一定程度上影响表达分化,而且可能有其它调控机制影响了重复基因表达分化。