论文部分内容阅读
甘蓝型油菜(Brassica napus L.)是主要的油料作物之一,在驯化和育种过程中产生了广泛的变异,高质量的参考基因组对于挖掘农艺性状相关的遗传变异、推动品种改良具有重要意义。油菜是异源四倍体,有复杂的基因组结构,受限于测序读长,已发表的油菜参考基因组上仍然存在大量的组装错误和gap区域,单个品种的参考基因组也不具有广泛的代表性,给基因定位克隆和更加深入的比较基因组学分析造成了困扰。本研究中,我们用Nanopore超长读长测序技术对已发表的中双11(ZS11)参考基因组进行升级,纠正了组装错误,填补了存在的gap。此外,为了更全面了解不同品种间的遗传变异,我们对中双2(ZS2)等6个具有代表性的甘蓝型油菜品种进行了Pac Bio测序和de novo组装,结合已发表的多个参考基因组构建了甘蓝型油菜泛基因组。主要研究结果如下:1.对ZS11分别进行了两次建库测序,第一次构建了Nanopore Ligation 1D文库,测得reads平均读长为11.82 Kb;第二次构建了Nanopore Ultra-long reads测序文库,测序平均读长达到了38.24 Kb,共有64条reads长度大于500 Kb。两次测序数据总量为92.75 Gb,组装得到990.60 Mb序列,contig N50为43.36Mb。2.通过Nanopore组装得到的contig与已发表的ZS11参考基因组比对分析,发现参考基因组上contig末端的组装错误率高于contig内部。比较发现,ZS11参考基因组的gap共有4种基本类型:(1)gap区域代表了参考基因组中序列缺失;(2)gap两侧的序列重复;(3)gap处存在一个(或多个)不正确放置的较小contig;(4)gap一侧(或两侧)组装错误。结合ZS11参考基因组上gap的上述特征,我们开发出一套自动化gap填补流程。经过运行gap填补流程和人工校正,最终填补了ZS11参考基因组上4,398个gap,占总数的98.39%。升级后的ZS11参考基因组大小为999.57 Mb,仅剩72个gap,contig N50达到了55.94 Mb,是现有油菜参考基因组中最大的。最后,我们使用Illumina PE150 reads对升级后的参考基因组进行了6轮polish纠错。3.我们用多种方式评估了基因组升级的准确性和完整性。(1)将Illumina reads比对到升级后的ZS11参考基因组上,比对率从96.90%提高到97.43%,反映出升级后的参考基因组具有很高的碱基准确性。(2)在升级前参考基因组gap两侧及潜在的组装错误两侧共设计了100引物,成功扩增并测序83个PCR产物,Sanger测序结果与升级后的参考基因组完全一致,证明本研究的纠错及gap填补过程是准确可靠的。(3)从ZS11的BAC文库中随机挑选9个BAC并混合测序,组装出8条完整的环状BAC序列。本研究组装出的BAC序列和已发表的11个油菜BAC序列均能完整地比对到升级后的ZS11参考基因组上。(4)升级后的ZS11参考基因组上BAC末端序列(BAC-end sequences,BESs)距离分布的变异系数较升级前更小。(5)BUSCO分析表明基因组完整性由98.88%提升到99.09%。4.本研究对升级前后ZS11参考基因组的注释结果进行了详细的比较分析。升级后的ZS11注释到55.82%的重复序列,比升级前注释到更多类型的DNA转座子。升级后共注释到101,115个蛋白编码基因,比升级前多196个;注释到基因的平均长度为2,709.03 bp,比升级前长502.27 bp;升级后注释到了更多的多外显子基因,有更多的基因获得了UTR信息。在升级后ZS11参考基因组的19条染色体上都鉴定到了着丝粒区域,A亚基因组着丝粒平均长度为9.51 Mb,是C亚基因组的2倍。升级前着丝粒区域有个2,637个gap,而升级后着丝粒区域仅有14个gap,15条染色体获得了没有gap的完整着丝粒序列。在升级后的15条染色体末端鉴定到了端粒序列。5.我们对6个具有代表性的油菜品种(中双2号(ZS2)、Bugle、352、862、日本油菜(Ribenyoucai)和白花(Baihua))进行了Pac Bio测序,组装得到824.77-949.56 Mb序列,注释到90,960-98,777个基因。我们还收集了近年来通过三代测序组装得到的9个高质量油菜参考基因组,比较分析发现15个基因组分别有8.20-15.30 Mb序列在ZS11上不存在,通过向ZS11参考基因组添加15个基因组的存在缺失变异(Presence and absence variations,PAV)序列,构建出大小为1109.12 Mb的油菜泛基因组。对来自16份甘蓝型油菜注释基因集的蛋白序列聚类,得到102,720个同源基因簇,其中核心基因簇、可变基因簇和稀有基因簇的个数分别为33,763(32.87%)、66,196(64.44%)和2,761(2.69%)。