论文部分内容阅读
2013年2月24日,毛竹(Phyllostachys edulis)基因组草图正式在《Nature Genetics》杂志在线发表,该研究填补了世界竹类植物基因组学研究的空白,也标志着竹类植物研究进入了后基因组时代.该成果对包括竹类植物的禾本科物种进化、改良、解析遗传信息以及定向培育竹资源、发展竹产业和繁荣竹文化等具有重要意义.毛竹的基因组较大(大约2 Gb),采用”序列相同,功能相似”分析方法目前己预测出31,987个高度可靠的毛竹功能基因、1,167个tRNAs和包括Non-coding RNA,repeat sequence等在内的多层面信息.大量的信息给充分利用毛竹基因组的数据带来了不小的困难.同时由于毛竹基因组杂合度高、重复序列多,使得基因组拼接、功能基因注释等工作还将继续.因此,为了给广大科研人员提供一个全面、准确、方便以及更新及时的毛竹基因组、转录组和非编码RNA(例如microRNA)等其他层面组学信息的平台,我们特开发了“毛竹全基因组数据库与分析平台”——BambooGDB,BambooGDB主要包含毛竹功能基因注释数据库和在线分析工具两部分内容.在数据部分,不仅包含了毛竹基因组的数据,而且还包含了毛竹全长cDNA、转录组、小RNA等多层面的竹类植物组学数据.在分析工具方面,分析平台提供了比较基因组分析工具、蛋白一蛋白互作分析工具、代谢通路分析工具和组学信息可视化分析工具.毛竹功能基因的深度注释是BambooGDB的核心内容之一.BambooGDB收录了全部的己预测毛竹功能基因组,全面、详细的功能注释从基本信息(基因在基因组的位置信息、长度、等电点、别名)、核酸/蛋白层面(如Pfam,COG、InterPro、PANTHER、EC number、同源信息等)、结构层面(如保守域模型、保守位点信息等)、代谢通路/网络层面(如KO分类、KEGG代谢通路、代谢网络)和序列信息(ORF核酸序列、编码蛋白的氨基酸序列、基因前后游各1 kb的核酸序列)等多层面对每一个毛竹功能基因进行了详细的功能注释.同时为了直观理解蛋白信息,BambooGDB特意添加了结构域信息示意图.我们还提取出基因上下游各1 kb的序列信息,旨在方便实验人员的引物设计.除了基因组的信息,目前己发布了多套竹类植物转录组和microRNA等组学数据也己整理收录在BambooGDB.除了提供信息查询的功能,BambooGDB的另一个大功能是数据分析.该数据库与分析平台提供了基础的序列比对工具BLAST,其中包含了毛竹、水稻和拟南芥的序列信息;在序列层面,还提供了同源基因比对的分析,数据包括了全部已发布的禾本科植物和模式植物拟南芥.通过同源基因序列比对工具,为发现异同的同源基因/同源基因家族分析提供便利;基于蛋白序列方面,还部署了“蛋白一蛋白”相互作用网络.通过基于蛋白结构域信息的比较分析,把得到的毛竹的蛋白间相互作用网络以可视化方便查询的方式部署在BambooGDB.蛋白一蛋白相互作用网络,为研究蛋白间相互作用,代谢情况提供了数据支持;在代谢层面,代谢网络也被成功部署在网站上,选择KEGG参考代谢网络作为参照,通过信息分析,把毛竹中参与到KEGG代谢网络中的蛋白标记出来,这为研究毛竹代谢情况提供了较为直接的数据保证;最后,在BambooGDB中的多层面数据,均可通过部署在网站上的可视化基因信息浏览器GBrower进行查询.随着毛竹基因组信息的不断更新和完善,毛竹基因组注释的工作还将继续进行,BambooGDB(www.bamboogdb.org)旨在提供给用户无偿使用、查询方便、使用便捷的竹类植物组学信息,该数据库将持续收录、更新竹类植物组学数据,完善、部署更多实用功能模块,为促进竹类植物分子生物学研究提供帮助.