论文部分内容阅读
由于工农业的排放和生活污水的污染日益加剧,加之全球气候变化,使得太湖水体富营养化程度达到了前所未有的状态,蓝藻水华频频发生。而目前的一些方法,如人为打捞、物理除藻、引入新生物等都未能见效,使得全社会对出现一种能有效预警、控制和治理水华的措施的愿望空前迫切。要想从根本上了解水华演替的过程,还得回答以下几个问题:在这个过程中有哪些种群起了作用呢?哪些物种突然就消失了呢?微囊藻内部有没有发生什么变化?整个水华群体的功能基因是否也发生了相应变化呢?微生物群落中的大部分细菌都无法分离培养,并且蓝藻与其共生菌的关系密切,无法达到纯培养状态,阻碍了一系列围绕水华的科学研究的开展。宏基因组学,通过直接提取和克隆一个微生物集合DNA的方法来对微生物群落进行基因组分析,避免了分离培养微生物的过程,已经在其他一些领域有了突破性的进展,该研究也试着运用它来克服难题,帮助回答上述问题。 2009年3月到11月每个月从太湖梅梁湾N2点采集到蓝藻水华样品,运回实验室后提取到高质量的宏基因组DNA,建立文库进行二代Illumina测序,得到46.3Gb的数据集,reads数目为630524282,各月平均数据量达到5Gb。对数据集进行质控,得到42.1Gb的过滤后数据,reads数目为620663272。 采用Velvet对每个月的数据进行拼接,运用不同的参数组合做拼接测试,根据N50等重要拼接结果指征选取出较优参数组合:k-mer length=59,coy_cutoff=10,exp_cov=200,min_contig_lgth=300,拼接后一共得到27357条contigs,总长度为114Mb。将3月、4月、5月,4月、5月、6月,5月、6月、7月,6月、7月、8月,7月、8月、9月,8月、9月、10月,9月、10月、11月,每三个月的数据整合起来进行拼接,对得到的contigs作Coverage-GC分布图,发现有9月加入后的三个月拼接的contigs多样性较多,具有更大的物种多样性可能。 将每个月的序列对下载自NCBI的细菌基因组数据库进行搜库,利用perl脚本根据比对分值将最优结果筛选出来,得到覆盖上细菌基因组的序列数目总数为429539133条,占到序列总和的68%,亦即超过一半的序列都能在已经进行基因组测序的细菌基因组上找到对应点。其中有422612698条序列覆盖上了微囊藻基因组,在比对上细菌基因组序列总数429539133中的比例为98%,而占各月序列总和的67%。之后再将每个月的序列对下载自NCBI的病毒基因组数据库进行搜库,同样利用Perl脚本提取出最高得分比对结果,统计得到3月到11月比对上病毒基因组数据库的序列数目依次为:318200、209667、391687、233242、204762、240351、245775、237732、250123,总和为2331539条,占各月序列总和630524282的0.4%,而其中大部分都覆盖至Microcystis phageMa-LMM01基因组,噬藻体的覆盖度最高值在5月达到了153,最低值在3月出现,亦达到了35。对细菌基因组比对结果中的微囊藻属部分进行统计发现:微囊藻属的不同株的丰度在9月出现了巨大转折,9月之前微囊藻Taihu98类似序列占据了蓝藻水华微群落的大部分,而自9月起微囊藻NIES-843类似序列开始占据优势,数量多于Taihu98,说明9月是蓝藻水华的微囊藻属演替过程中的一个关键时间点。但在噬藻体方面没有类似的规律性结论。 将各月序列与非核糖体肽合成酶途径(NRPS)的4种重要次生代谢物基因簇进行BWA比对,提取出比对上部分,统计后发现这些基因簇在9月发生了很大的变化。然后将比对结果导入inGAP中直观展示序列在基因簇上的覆盖情况,亦可以发现9月前后各大基因簇的覆盖度有着明显的区别,而其中与微囊藻毒素合成密切相关的mcy基因簇的变化尤为明显,9月该基因簇的覆盖度与8月相比,增加了25倍之多。之后运用qPCR实验验证,模板来自于与Solexa测序同份的宏基因组DNA,引物设计自基因簇中的一部分代表性序列,结果也得到了相同的倍数关系。 这些分析都显示了9月是太湖蓝藻水华演替的关键点,需要我们对其进行更多深入的研究。从数据中也可挖掘到病毒相关内容,ORF对应的蛋白功能信息,少量除了蓝藻外的其他微生物相关的数据,说明宏基因组学分析可以运用至蓝藻水华演替研究中,能为建立长期的水华预警与控制体系提供最基础的数据辅助。 此外还构建了第一个为模式蓝藻聚球藻Synechococcus sp.PCC7002服务的整合的组学数据库——CyanOmics,对所有的蓝藻来说,也是第一个类似的数据库。在研究极端环境下生长的蓝藻的生理生化特性、光合作用机理和胁迫适应模式方面,聚球藻Synechococcussp.PCC7002是一种非常重要的模式蓝藻,基于此,该数据库显得异常必要。它包括了所有全基因组序列、转录组图谱以及蛋白质组分析的有用信息,为研究者们提供了一个系统且全面的组学数据分析平台,使他们能够对那些数据加以最大程度的利用。数据库中的GenomeBrowser、Transcriptomics和Proteomics这三大版块相互之间存在动态联系,能够实现内部互链。CyanOmics数据库具有用户友好的网站界面、精密设计的数据库框架和强大的可视化工具,还为用户提供了几项方便的操作,数据库所有的功能都非常容易执行,即使那些基本不具备生物信息学知识的研究者使用起来也得心应手。总之,该组学数据库必将为所有的蓝藻生物学家带来诸多便利,帮助他们更好地开展实验研究,而且该完整的数据库框架也可以应用至其他的已完成全基因组测序的原核生物中,为它们的组学分析研究提供现成的模板。