论文部分内容阅读
生物的性状可划分为质量性状和数量性状,与生物进化和动植物育种密切相关的性状大多是数量性状。但与质量性状相比较,数量性状受多个基因控制,易受环境影响,表现型与基因型之间无明确的对应关系,因此数量性状的遗传研究要比质量性状困难得多。经典数量遗传学建立在多基因假说基础之上,通过对表型方差的分解研究控制某一性状所有基因的累积效应,不注重但同时也难以计算单个数量性状基因的贡献。近20年来,分子标记技术的发展和广泛应用使得研究单个数量性状基因的遗传成为可能,根据分子标记遗传连锁图谱和数量性状表型数据研究数量性状基因在染色体上的位置并估计其遗传效应,即QTL(quantitative trait gene or locus)作图,逐渐成为数量遗传学研究的重点,利用QTL定位结果对数量性状基因进行精细定位、图位克隆和标记辅助选择等方面都有成功的例子。
复合区间作图(简称CIM,Composite Interval Mapping)是近10多年来广泛应用的一种QTL作图方法,但它在算法上存在一些缺陷,致使QTL的部分效应可能会被侧连标记区间之外的标记变量吸收,同时不同背景标记选择方法对作图结果的影响较大,并且难以推广到上位型互作QTL的定位。针对CIM中存在的问题,我们提出了数量性状基因的完备区间作图方法(简称ICIM,InclusiveComposite Interval Mapping)。本论文通过理论推导和模拟试验研究了ICIM的遗传和统计学性质;将ICIM推广到检测加性×加性互作QTL以及多群体QTL的定位;设计不同遗传模型和作图群体大小,通过大量计算机模拟试验比较了ICIM方法与多区间作图、惩罚似然法和两种基于贝叶斯模型作图方法(随机搜索变量选择法和经验贝叶斯模型)的QTL检测功效;结合真实作图群体说明了ICIM在实际应用中的有效性。得到的主要研究结果如下:
1、建立了ICIM加性QTL作图方法。ICIM用到的两个遗传学假设为:(1)个体的基因型值等于所有影响目标性状的基因效应的代数和;(2)连锁QTL间相隔至少一个空白标记区间(即不存在QTL)。在这两个假设下,证明了数量性状表型值对区间标记变量的回归系数能够完全吸收标记区间上QTL的遗传效应,即回归系数包含了该区间上QTL位置和效应的完整信息,因此数量性状表型值对所有标记变量的线性回归模型可以拟合基因组上所有QTL的位置和效应。在此基础上,ICIM通过一个两步策略实现对加性QTL作图:首先利用所有标记的信息建立线性模型,通过逐步回归选择重要的标记变量并估计其效应,根据逐步回归得到的标记效应校正数量性状的表型值;然后利用校正后的表型数据,通过一维扫描定位加性效应QTL,同时估计QTL的效应。
2、研究了ICIM加性QTL作图方法的遗传和统计学性质。通过计算机模拟,研究了ICIM加性QTL作图的渐近性质:(1)检验是否存在QTL的LOD统计量随样本量的增大而线性增加,QTL的遗传效应越大,LOD值增加的速度越快,即斜率越大;(2)当样本量超过200时,ICIM对解释表型变异超过5%的QTL的位置估计是近似无偏的,当样本量较小时,对QTL的位置有向染色体中央估计的趋势;(3)当样本量超过200时,ICIM对解释表型变异超过5%的QTL效应估计是无偏的,当样本量较小时,对QTL的效应有高估的趋势。
3、上位型互作QTL定位的ICIM方法。在加性QTL作图的两个遗传学假设下,数量性状表型值对两个区间上四个二阶标记互作变量的回归系数能够完全吸收这两个标记区间上QTL的上位型互作遗传效应,即四个二阶标记互作回归系数包含了两区间上参与上位型互作的两个QTL位置和效应的完整信息,因此表型值对所有标记变量以及二阶标记互作变量的线性回归模型可以拟合基因组上所有QTL以及参与二阶上位型互作QTL的位置和效应。与加性QTL的定位类似,上位型互作QTL的定位也包含两个步骤:首先建立所有标记变量和二阶标记互作变量的线性模型,通过逐步回归选择重要的标记变量和二阶互作标记变量并估计其效应,利用逐步回归得到的标记和互作标记效应校正表型数据;利用校正后的数据,通过二维扫描定位上位型互作QTL,同时估计QTL的互作效应。这样的定位方法,不仅可以检测到具有加性效应QTL间的互作,而且还可以检测到没有明显加性效应的QTL之间的互作。
4、ICIM在真实作图群体中的应用。在一个大麦加倍单倍体作图群体中,ICIM共检测到9个加性QTL,分布在大麦7条染色体中的5条上,这些QTL共解释粒重表型变异的81%,略超过粒重广义遗传力的估计值。该群体中,标记的加性效应解释了大部分的表型变异,意味着遗传变异以加性效应为主,通过ICIM的二维扫描,也没有检测到明显的上位型互作。在一个玉米重组近(自)交家系作图群体中,我们应用ICIM对玉米三个重要农艺性状吐丝期、散粉期和株高在10个环境下的表型调查数据进行QTL作图,分别检测到36、49和62个加性QTL,以及22、24和38个上位型互作;有些加性QTL在不同环境间有很好的重复性,比较而言,上位型互作在环境间的可重复性比加性QTL差。通过ICIM在真实群体中的应用,给出了作图参数选择和何种情况下考虑实施二维扫描检测上位型互作的经验标准。
5、ICIM在多群体QTL作图中的应用。双亲衍生的作图群体是QTL连锁分析方法常用的群体类型,如果QTL在两个亲本中不分离,那么我们就无法在这两个亲本衍生的作图群体中检测到该QTL。多亲本的多项杂交群体被提出,有利于在更广泛的遗传背景下检测更多的QTL。最近美国玉米遗传多样性项目利用具有广泛来源的26个玉米自交系做亲本,发展了玉米巢式关联作图群体(简称NAM,Nested Association Mapping),我们将ICIM的算法扩展到适用于NAM设计,推广后的算法称为联合完备区间作图(简称JICIM,Joint InclusiveComposite Interval Mapping),通过大量模拟证明了JICIM在NAM设计中的有效性。在这个玉米NAM群体中,JICIM共检测到52个加性QTL控制玉米吐丝期,这些QTL分布在玉米的10条染色体上,共解释表型变异的79%,目前已克隆的唯一一个玉米吐丝期基因Vgtl(Vegetative to generative transition I)也包含在JICIM检测到的这些QTL中。
6、基于计算机模拟的作图功效分析和不同QTL作图方法的比较。目前QTL作图方法有很多,为了评价不同作图方法的有效性,我们需要比较不同方法的估计值与真实值之间的差异、计算不同方法的统计功效和错误发现率(简称FDR,False Discovery Rate)。但是,基于区间检验的QTL作图不是一个简单的点估计,因此给统计功效和FDR的计算带来一定的复杂性。本论文中,我们研究了计算机模拟、功效分析和排列检验在QTL作图中的应用途径,以简单区间作图方法为例,借助一个遗传模型下10个模拟群体的QTL作图结果,阐述了如何在模拟试验中估计QTL的位置和效应、计算统计功效和FDR。统计功效的计算方法有两种:一种是基于遗传连锁图谱上的标记区间,如果检测到的QTL落入它所在的标记区间内,则检测到的QTL为真,否则检测到的QTL为假,这种计算方法可以有效地监测显著QTL在基因组内的分布;另一种是事先指定置信区间的长度,例如10cM,真实QTL位于置信区间的中央,如果检测到的QTL落入它所在的置信区间内,则检测到的QTL为真,否则检测到的QTL为假,这种方法可以计算QTL在预先设定的置信区间上的检测功效。
本论文的研究结果表明ICIM有以下六个方面的特点:(1)有效控制了抽样误差;(2)简化了控制背景遗传变异的过程;(3)有QTL的区域ICIM有显著高的LOD值,在没有QTL的区域ICIM的LOD值接近于0,提高了QTL的检测功效,降低了错误发现率;(4)对作图参数有很好的稳健性;(5)对于上位型互作,ICIM不仅可以检测到有加性效应QTL之间的互作,还可以检测到没有明显加性效应QTL之间的互作;(6)算法简便,运行时间短。我们已编制了实现ICIM计算机软件QTL IciMapping,该软件可从http://www.isbreeding.net网站下载。
在过去的20年里,QTL作图方法研究得到了快速发展,不同作物的不同性状中有大量QTL已被检测出来,但是,如何进一步确认检测出的QTL以及如何在育种中有效利用这些QTL仍面临着挑战。首先,在有较多基因分离的双亲作图群体中,基于连锁分析的QTL作图精度往往在10-20cM之间,如果要克隆QTL,这样的精度是远远不够的,建立次级作图群体(如染色体片段置换系或渐渗系)或者利用自然群体的关联分析可以提高作图精度,进行QTL精细定位。其次从育种学的角度来看,QTL真正应用于育种实践的还很少,探索QTL在育种中的有效利用途径、实现育种过程中对目标基因型的高效选择,也应该是今后研究工作的一个重要方向。