论文部分内容阅读
近30年来,高通量组学技术(基因组学、转录组学、蛋白质组学和代谢组学)的出现给生物科学领域的发展带来巨大的变革,同时也给生物学家和信息学家带来了一系列前所未有的机遇与挑战。一方面,大量、多维的数据提供了全面和深入认识生物学问题的基础。另一方面,研究者在数据的使用、挖掘和管理方面也面临很多问题。本研究论文从转录组和代谢组两个方面,对组学数据的研究方法和组学数据的生物学意义进行了探索和研究。 在转录组层面,本论文基于转录组大数据进行了RNA编辑及其进化的研究。RNA编辑是RNA分子发生碱基插入、删除或替换,从而导致RNA序列发生改变的转录后机制。目前研究最多的RNA编辑类型是A-to-I RNA编辑,即广泛存在于后生动物中RNA分子上腺嘌呤(A)脱氨基变为次黄嘌呤(I)的碱基变换。A-to-I编辑由作用于RNA分子的腺苷脱氨酶(ADAR)催化,主要发生在RNA双链结构区域。次黄嘌呤在翻译的过程中会被识别成为鸟嘌呤(G),带来mRNA编码改变,增加遗传多样性。二代测序技术产生了大量转录组数据,为系统地研究RNA编辑提供了基础。为了研究A-to-I编辑对转录组、蛋白质组和基因进化的影响,以及A-to-I编辑本身在进化中受到的选择限制,选择了果蝇属7个相近物种作为研究模型,进行了多物种RNA编辑大数据研究。 通过收集多维转录组大数据、系统筛选和鉴定,共发现了9281个A-to-I RNA编辑事件,其中5150(55.5%)分布于2734个基因的编码区(CDS)。系统进化分析将2734个基因聚集在1526个同源基因家族中,约占7个果蝇物种总基因家族的5%。根据编辑位点的保守性,CDS区内5150个编辑位点被分成3种不同类型:第一类位点发生在单基因家族基因上;第二类发生在多基因家族基因上,但位点不保守;第三类发生在多基因家族基因上,且位点保守。对这三类位点及其基因进行选择分析发现,第一和第二类位点均受到纯化选择(负选择)影响,而只有第三类位点受到正选择压力。重要的是,第三类位点高度富集于神经系统的元件和功能中。进一步对这三类编辑位点进行不同组织、发育时期以及动物变态发育过程中的分布及变化进行分析,第一次发现了A-to-I RNA编辑在动物发育、交配(mating)等生理过程中动态变化的证据,进一步支持了三类不同编辑位点的重要功能。这些结果都指向神经系统功能,说明了RNA编辑的适应性主要通过神经系统功能实现。神经系统功能是检验有益RNA编辑位点主要标准。以上发现,揭示了由RNA编辑表观遗传机制引入的编码可塑性,而产生一类新的二分变异。在二倍体有性生殖系统中,它可能是维持基因表达杂合性的一个重要机制,对克服等位杂合子分离有不可替代的优势。本研究指出了RNA编辑在动物神经系统功能和动物发育过程中的重要作用,为RNA编辑事件的进化及其基因的进化研究提供了新见解。 在代谢组层面,本论文对植物代谢组学研究中遇到的一些问题进行探索和研究,开发了农作物代谢组学研究的方法和平台。代谢组学在植物代谢物组解析的研究中起重要作用。近年来,快速发展的液质联用分析技术,能高通量检测植物代谢物。然而,检测到的代谢物却只有极少部分得到鉴定与注释,代谢物的鉴定是代谢组学研究发展的瓶颈。目前,基于二级质谱标签(MS2T)鉴定和注释代谢物,成为了以LC-MS为基础的非靶向植物代谢组学鉴定代谢物的重要方法。通常,研究者通过搜索与比对标准物质谱数据库,根据精确分子质量和二级谱图相似性来确定和排序候选化合物。然而标准物质谱库造价高,代谢物覆盖度小,手工搜库费时费力,且能被鉴定的代谢物数目非常有限。近几年,通过计算机模拟的方法,根据化学结构预测标准物质谱图的研究成为了热点。如何既更好地利用已有的标准物数据库资源准确鉴定代谢物,又借助新兴的计算机模拟方法简化代谢物鉴定过程,提高鉴定效率,是本研究的主要目标之一。 结合传统标准物质谱库与计算机模拟质谱库的方法,发展了高通量准确鉴定代谢物的方法流程。其次,利用UPLC-Q-Orbitrap液质联用技术,建立了水稻籽粒的代谢组MS2T库,并利用开发的代谢物鉴定方法对水稻代谢物进行了深度注释。最后,还开发了农作物代谢组学数据分析的网站平台,供合作伙伴及其他研究者搜索、可视化、存储和共享农作物组学数据。本研究将植物代谢组学代谢物的鉴定数量提升了一个数量级,将极大促进下游功能基因组学的分析。