论文部分内容阅读
新基因起源是基因组进化的一种重要方式。新基因的研究可以追溯到上个世纪90年代。Long和Langley(1993)在黑腹果蝇亚群中发现第一个新基因Jingwei,由此拉开了新基因研究的序幕。在随后的接近二十年的研究中,随着基因组测序技术的提高和大量基因组数据的公布,越来越多的新基因在各个物种中被鉴定。研究发现这些新基因,尤其是逆转座形成的新基因倾向于表现出雄性特异性,甚至精巢特异性表达模式,即许多新基因显示出雄性偏好性表达,但雌性偏好性表达的新基因则较少。在本论文的第一部分(第一到三章)中,我们主要以两个分别在雄性和雌性中特异性表达的新基因为例,研究了性别偏好性表达新基因的起源、进化和功能。
第一个新基因编码多聚泛素,是CG11700和CG3744其中的一个,通过基因重复而产生,仅仅存在于Drosophila melanogaster中。由于新基因是串联重复产生的,因此很难判断CG11700和CG3744哪个是新产生的,哪一个是祖先拷贝。但是,CG11700在D.melanogaster中积累了32个氨基酸替换,并进化出雄性特异性表达的模式;而CG3744则与其直系同源基因和编码泛素的其他基因在蛋白质序列一样,且在所有发育时期和性别中都广泛表达。CG11700在蛋白质序列和表达上的分化暗示其可能产生了新的功能。尽管两个基因都受到负选择,但是CG3744内部的重复单元拷贝数在D.melanogaster群体中显示出高度的多态性,而CG11700内部的重复单元拷贝数则被固定下来,这提示CG11700受到的选择压力可能更大。CG11700的缺失突变体比其野生型对照组具有更高的雄性生殖能力和更短的寿命,而CG3744的缺失突变体则没有这一表型。因此我们认为新基因CG11700在D.melanogaster的进化中可能扮演着平衡生殖代偿的作用,即抑制生殖能力的过度提高并延长寿命。
第二个基因CG9902则是通过基因组上片段复制介导基因融合而产生,在黑腹果蝇复合体(D.melanogaster,D.sechellia和D.simulans等)中都存在。CG9902形成了嵌合的基因结构,并获得了雌性特异性表达模式;而祖先基因CG7692则在各个发育时期和性别中都广泛表达,提示新基因CG9902在结构和表达上均与祖先基因发生了分化。通过突变体表型分析,我们发现祖先基因CG7692是卵子发生和受精所必需的,新基因CG9902则能部分减轻祖先基因突变的表型,其可能起着与祖先基因相拮抗的功能。
在本论文的第二部分(第四章)中,我们还对黑腹果蝇亚群五个物种(D.melanogaster, D.sechellia,D.simulans, D.yakuba和D.erecta)中外显子化的重复序列的结构、进化和功能进行了分析。超过17%的基因在蛋白质编码区或者UTRs中含有串联重复序列。每个物种中均有超过180个串联重复序列位于外显子和内含子的边界区,串联重复序列拷贝数的改变可能伴随着5’或者3’剪切位点的改变,其对基因的外显子和内含子结构进化可能具有重要的贡献。大部分的外显子化的串联重复序列是物种特异性的,且其直系同源序列之间具有较高的同意和错意替换速率。超过30%的外显子化的串联重复序列的Ka/Ks大于1,其中4%显著大于1,它们可能受到正选择驱动。这些外显子化的串联重复序列能潜在编码一些功能元件,如蛋白质功能域、转录因子结合位点和microRNA靶位点。通过这些调查,我们初步系统地从结构、进化和功能方面揭示了外显子化的串联重复序列在基因进化上的贡献。
此外,我们研究了黑腹果蝇中新基因选择性剪切的进化(第五章)。新基因起源后整体上倾向于丢失选择性剪切。选择性剪切丢失的机制主要有三种:通过逆转座丢失内含子,选择性剪切外显子没有被复制到新基因中,外显子虽然被复制但突变导致其丧失选择性剪切能力。改变选择性剪切的新基因表达量比祖先基因低,在更少的组织中表达,并更加倾向于在精巢中表达。新基因选择性剪切的改变会伴随着调控序列的改变而影响基因的表达模式。
在本论文中,我们通过对黑腹果蝇中性别偏好性表达新基因和外显子化串联重复序列以及新基因选择性剪切的分析,从结构、进化和功能上分别对基因组上新的进化事件作了较为系统的研究,其能帮助我们能更好的了解基因组进化的功能后果。