太湖蓝藻水华季节性演替的探究和聚球藻组学数据库CyanOmics的构建

来源 :中国科学院大学 | 被引量 : 0次 | 上传用户:shulin370
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
由于工农业的排放和生活污水的污染日益加剧,加之全球气候变化,使得太湖水体富营养化程度达到了前所未有的状态,蓝藻水华频频发生。而目前的一些方法,如人为打捞、物理除藻、引入新生物等都未能见效,使得全社会对出现一种能有效预警、控制和治理水华的措施的愿望空前迫切。要想从根本上了解水华演替的过程,还得回答以下几个问题:在这个过程中有哪些种群起了作用呢?哪些物种突然就消失了呢?微囊藻内部有没有发生什么变化?整个水华群体的功能基因是否也发生了相应变化呢?微生物群落中的大部分细菌都无法分离培养,并且蓝藻与其共生菌的关系密切,无法达到纯培养状态,阻碍了一系列围绕水华的科学研究的开展。宏基因组学,通过直接提取和克隆一个微生物集合DNA的方法来对微生物群落进行基因组分析,避免了分离培养微生物的过程,已经在其他一些领域有了突破性的进展,该研究也试着运用它来克服难题,帮助回答上述问题。  2009年3月到11月每个月从太湖梅梁湾N2点采集到蓝藻水华样品,运回实验室后提取到高质量的宏基因组DNA,建立文库进行二代Illumina测序,得到46.3Gb的数据集,reads数目为630524282,各月平均数据量达到5Gb。对数据集进行质控,得到42.1Gb的过滤后数据,reads数目为620663272。  采用Velvet对每个月的数据进行拼接,运用不同的参数组合做拼接测试,根据N50等重要拼接结果指征选取出较优参数组合:k-mer length=59,coy_cutoff=10,exp_cov=200,min_contig_lgth=300,拼接后一共得到27357条contigs,总长度为114Mb。将3月、4月、5月,4月、5月、6月,5月、6月、7月,6月、7月、8月,7月、8月、9月,8月、9月、10月,9月、10月、11月,每三个月的数据整合起来进行拼接,对得到的contigs作Coverage-GC分布图,发现有9月加入后的三个月拼接的contigs多样性较多,具有更大的物种多样性可能。  将每个月的序列对下载自NCBI的细菌基因组数据库进行搜库,利用perl脚本根据比对分值将最优结果筛选出来,得到覆盖上细菌基因组的序列数目总数为429539133条,占到序列总和的68%,亦即超过一半的序列都能在已经进行基因组测序的细菌基因组上找到对应点。其中有422612698条序列覆盖上了微囊藻基因组,在比对上细菌基因组序列总数429539133中的比例为98%,而占各月序列总和的67%。之后再将每个月的序列对下载自NCBI的病毒基因组数据库进行搜库,同样利用Perl脚本提取出最高得分比对结果,统计得到3月到11月比对上病毒基因组数据库的序列数目依次为:318200、209667、391687、233242、204762、240351、245775、237732、250123,总和为2331539条,占各月序列总和630524282的0.4%,而其中大部分都覆盖至Microcystis phageMa-LMM01基因组,噬藻体的覆盖度最高值在5月达到了153,最低值在3月出现,亦达到了35。对细菌基因组比对结果中的微囊藻属部分进行统计发现:微囊藻属的不同株的丰度在9月出现了巨大转折,9月之前微囊藻Taihu98类似序列占据了蓝藻水华微群落的大部分,而自9月起微囊藻NIES-843类似序列开始占据优势,数量多于Taihu98,说明9月是蓝藻水华的微囊藻属演替过程中的一个关键时间点。但在噬藻体方面没有类似的规律性结论。  将各月序列与非核糖体肽合成酶途径(NRPS)的4种重要次生代谢物基因簇进行BWA比对,提取出比对上部分,统计后发现这些基因簇在9月发生了很大的变化。然后将比对结果导入inGAP中直观展示序列在基因簇上的覆盖情况,亦可以发现9月前后各大基因簇的覆盖度有着明显的区别,而其中与微囊藻毒素合成密切相关的mcy基因簇的变化尤为明显,9月该基因簇的覆盖度与8月相比,增加了25倍之多。之后运用qPCR实验验证,模板来自于与Solexa测序同份的宏基因组DNA,引物设计自基因簇中的一部分代表性序列,结果也得到了相同的倍数关系。  这些分析都显示了9月是太湖蓝藻水华演替的关键点,需要我们对其进行更多深入的研究。从数据中也可挖掘到病毒相关内容,ORF对应的蛋白功能信息,少量除了蓝藻外的其他微生物相关的数据,说明宏基因组学分析可以运用至蓝藻水华演替研究中,能为建立长期的水华预警与控制体系提供最基础的数据辅助。  此外还构建了第一个为模式蓝藻聚球藻Synechococcus sp.PCC7002服务的整合的组学数据库——CyanOmics,对所有的蓝藻来说,也是第一个类似的数据库。在研究极端环境下生长的蓝藻的生理生化特性、光合作用机理和胁迫适应模式方面,聚球藻Synechococcussp.PCC7002是一种非常重要的模式蓝藻,基于此,该数据库显得异常必要。它包括了所有全基因组序列、转录组图谱以及蛋白质组分析的有用信息,为研究者们提供了一个系统且全面的组学数据分析平台,使他们能够对那些数据加以最大程度的利用。数据库中的GenomeBrowser、Transcriptomics和Proteomics这三大版块相互之间存在动态联系,能够实现内部互链。CyanOmics数据库具有用户友好的网站界面、精密设计的数据库框架和强大的可视化工具,还为用户提供了几项方便的操作,数据库所有的功能都非常容易执行,即使那些基本不具备生物信息学知识的研究者使用起来也得心应手。总之,该组学数据库必将为所有的蓝藻生物学家带来诸多便利,帮助他们更好地开展实验研究,而且该完整的数据库框架也可以应用至其他的已完成全基因组测序的原核生物中,为它们的组学分析研究提供现成的模板。
其他文献
西气东输工程全长近4000 km,是目前世界上最长的输气管道.该文以该工程河南-上海段沿线区域为研究对象,通过野外考察,选取地貌、土壤和植被为分类因子,以地貌图、土壤图和植
硬骨鱼类的性别决定机制是多元化存在的。遗传性别决定(GSD: Genetic sexdetermination)系统通常存在于哺乳动物和一部分鱼类当中。斑马鱼在性腺发育过程中,在早期首先发育成
随着我国电力系统容量的不断增长以及国际上限制SF6气体使用呼声的日益高涨,研发更大开断容量的环保型高压断路器势在必行。目前在电力系统中取得大规模应用的真空断路器与SF6气体断路器均有各自的优缺点,针对环保型高压断路器的研究也围绕两种断路器各自的特点展开。混合断路器是将真空间隙与SF6气体间隙串联进行开断,综合利用两种断路器的灭弧优势获得一定的开断容量增益,实现优势互补,扬长避短,具有较大发展潜力。
草鱼呼肠孤病毒(Grass carp reovirus,GCRV)引起的草鱼出血病每年都能引发草鱼(Ctenopharyngodon idellus)鱼种的严重出血,造成80%以上的死亡率和水产养殖业的巨大经济损失。目前,
棉铃虫是一种在世界范围内普遍发生的重要害虫,能导致多种不同作物的严重损失,为深入了解棉铃虫细胞色素P450的结构和功能,我们就棉铃虫单型P450基因的克隆及水杨酸钠对棉铃
为了评估人工林苔藓植物发育状况,同时为人工林生态功能评价提供依据,采用样地取样方法,调查分析了岷江上游大沟流域6种人工幼龄针叶林(川西云杉林、日本落叶松林、油松林、
本文以国家科技支撑项目“高速货运机车牵引逆变器研制”为依托,以大功率牵引传动系统——HXD1型电力机车为研究对象,对异步牵引电机直接转矩控制算法进行了深入研究,包括传统直接转矩控制的优化方案研究和无速度传感器技术研究。传统直接转矩控制理论是本文的基础,因此论文首先论述了传统直接转矩控制系统的基本理论,简要介绍了两电平逆变器和异步牵引电机的数学模型及直接转矩控制系统的基本结构,重点阐述了圆形、十八边
本文通过高效液相离子交换色谱(HPIELC)和激光光散射仪联用的分离-检测系统研究肠致泻性大肠杆菌的色谱行为,旨在发展一种能适用于临床诊断和流行病学调查的快速分离、检测和鉴定致病菌的新方法。文中首先对色谱条件进行了优化,确定对肠致泻性大肠杆菌表征的最佳色谱条件和检测方法。在此条件下,肠致病性大肠杆菌(EPEC)和肠侵袭性大肠杆菌(EIEC)有其各自的特征性图谱:EPEC的各主要血清型菌种(除E.c
电力互感器是电力系统的重要变电设备,其运行状态直接影响系统的安全性,测试和诊断互感器状态具有十分重要的意义。综合测试诊断技术是结合常规测试技术和单一诊断技术后产生的新的检测技术。本文提出综合测试和综合诊断相结合的技术:以综合测试技术为基础,构造故障综合诊断模型,降低了诊断工作的无序性,提高了故障查找能力;综合测试诊断技术,用多种测试和故障诊断方法对故障状态下的互感器进行分析,利用测试结果支持故障诊
  进食是一种保守的本能行为,对生长、生存、繁衍后代都至关重要。为了保持机体营养代谢的平衡,动物进化出精细且复杂的进食调控机制。黑腹果蝇因为其保守的进食行为和强大的