利用基于高斯混合模型的分箱方法对微囊藻附生细菌群落的宏基因组学研究

来源 :中国科学院大学 | 被引量 : 0次 | 上传用户:meteora5
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
湖泊富营养化引起的蓝藻水华不仅给人类带来了巨大的经济损失,同时还对整个淡水生态系统产生了难以估量的影响。由于微囊藻(Microcystis)在全球范围内广泛分布及其代谢产物——微囊藻毒素的危害性,微囊藻水华也引起了学者们广泛地关注。越来越多的证据表明(Eiler and Bertilsson,2004; Sigee,2005;Berg et al.,2008; Havens,2008; Shen et al.,2011),微囊藻群体中所共存的细菌群体对于微囊藻生长和水华暴发过程中各种理化因素的变化有着重要的影响。宏基因组学(Metagenomics)技术是一种直接从环境样品中提取全部微生物总DNA,然后利用现代基因组学技术研究环境样品中微生物的遗传组成、群落构成及群落功能的技术。该方法绕过了经典微生物学中分离和纯化培养过程,对于从分子水平上揭示环境群落中绝大部分不可培养的细菌具有重要意义。应用宏基因组技术来研究微囊藻群落,不仅可以帮助研究人员掌握微囊藻群体中在实验室内难以分离和培养的附生细菌类群,还可以为解释这些刚生细菌与微囊藻之间如何形成稳定群落提供线索。除了直接对实验室内的微囊藻群体进行研究以外,通过人工方法构建稳定共生群落也是一种有效的研究微囊藻的某些附生细菌的手段。  宏基因组数据分析过程中需要解决的一个重要问题是,如何从来自于整个群落的序列中重新构建出群落各个组分的序列,该过程被称为分箱(binning)。分箱过程的准确与否直接影响着所有下游数据分析。基于上述基本认识和讨论,本研究开发了一种基于高斯混合模型(Gaussian mixture model,GMM)的可视化分箱方法。除了使用模拟宏基因组数据集检测了该分箱方法的有效性以外,本研究还将该方法应用于两个真实的有关微囊藻附生菌群的宏基因组样品的分箱处理中,并分别对两个数据集进行了功能分析和代谢分析,以此揭示了微囊藻附生菌群的组成情况以及附生细菌与微囊藻之间的相互作用的可能机制。本研究提供的分箱方法对于中低复杂度环境微生物样品的处理效果很好,尤其适用于存在附生或共生关系的群落的宏基因组研究中。本研究中有关微囊藻附生菌群的宏基因组研究结果希望能够为研究微囊藻水华中微囊藻与附生细菌的相互作用机制提供一定的科学借鉴。  本研究主要内容和结果如下:  1.本研究开发了一种基于高斯混合模型(Gaussian mixture model,GMM)的可视化分箱方法。基于文献证据和实验观察,本研究确定了宏基因组拼接结果中序列的两个代表性的特征值——序列的GC含量和序列的测序覆盖度,通过计算其核密度估计结果并将结果以等高线图的形式将序列数据展示在二维平面内,以此来初步确定数据集内可能包含的物种数目;接着使用GMM模型对整个环境样品中的序列进行拟合,并使用经典的EM算法(Expectation-Maximization algorithm,EM)(考虑了每个组分的权重值)来计算该模型的参数值,即完成对每个群体序列的分箱。除此之外方法还借助从已测序的细菌基因组中挑选出来的较为保守的标记基因(marker gene)来对分箱过程中未分类的拼接片段进行“回收”,以尽可能完整地获取每个组分(即群落中的个体)的基因组片段,完整地“恢复”环境群落中每个个体的基因组序列。考虑到R语言强大的图形绘制功能和完善的统计模型模块,本研究中分箱方法的具体实现过程是由R语言来完成的。本研究为环境微生物样品的分析提供了一个可视化的分箱工具,同时也为宏基因组分析中分箱处理的研究提供了方法学上的借鉴。  2.基于微囊藻附生菌群的一般特征构建出模拟宏基因组数据集,分别使用本研究中的分箱方法和其它分箱方法(如MaxBin)对其进行分箱处理,并对结果进行比较分析。结果表明总体上来看本实验中的分箱方法和MaxBin分箱方法是相当的;就每个组分的所包含的序列数目而言,本实验中的分箱方法稍微少于MaxBin程序,但本实验中分箱方法的错分的可能性更低;从分箱结果中序列的总碱基大小而言,本研究中分箱方法和MaxBin基本一致。  3.本研究使用宏基因组学技术对一个在实验室内连续培养的惠氏微囊藻群体(Microcystis wesenbergi)进行分析。对其拼接结果进行分箱处理,分析结果表明在微囊藻群体中附生了至少8种异养细菌,这些细菌分别属于以下这些属:湖杆菌属、假单胞属、农杆菌属、湖沉积杆菌属、甲基杆菌属、根瘤菌属和红树林细菌属。通过分箱处理,本实验获得了湖杆菌属细菌的将近完整的基因组序列,包括3条序列,序列大小为4.7 Mbp左右。基于对已完成测序的19株微囊藻的基因组分析发现绝大部分微囊藻中都不包含编码不依赖于VB12的蛋氨酸合成酶的基因而是包含了另外一种依赖于VB12的蛋氨酸合成酶基因,而本实验所培养的微囊藻群体中的微囊藻同样只包含有依赖于VB12的蛋氨酸合成酶。对微囊藻群体的各个组分的代谢分析表明,微囊藻自身无法合成生长所需的VB12,该群体中VB12的有氧合成需要来自至少两种细菌的合作才能合成。研究结果在一定程度上解释了附生细菌与微囊藻长期稳定共存的现象,同时也为进一步研究微囊藻附生菌群提供了一种有效可靠的手段。  4.本研究通过将铜绿微囊藻群体(Microcystis aeruginosa)与聚球藻PCC7002(Synechococcus sp.PCC7002)混合培养并逐步提高盐度的方法构建了一个稳定且耐高盐的藻-菌混合培养体系。对该混合培养体系进行宏基因组分析表明,该体系中除了包含有聚球藻PCC7002以外,还有另外两种异养细菌——太湖施氏假单胞细菌(Pseudomonas stutzeri TAI HU)和太湖中慢生根瘤菌(Mesorhizobium sp.TAIHU)。对该宏基因组数据的拼接结果进行分箱处理之后分别获得了两个细菌的基因组序列,大小分别为4.8 Mbp和4.9Mbp。通过将已经发表的太湖宏基因组数据与细菌的基因组序列进行比对表明这两个细菌确实是来自太湖的微囊藻群体中。对鉴定的两个细菌进行的基因组注释并对其进行比较分析之后发现,太湖中慢生根瘤菌包含了VB12有氧合成途径的全部基因,即表明该细菌具有从头合成VB12的能力,而太湖施氏假单胞菌则携带了VB12补充合成途径的基因,即表明该假单胞菌能够利用钴啉醇酰胺(Cobinamide)等钴啉类物质补充合成VB12。对整个群体成员的渗透调节相关代谢进行分析表明,异养细菌中包含了负责胆碱和甜菜碱的吸收和生物合成相关基因以及L-脯氨酸甜菜碱ABC转运系统的基因。其中太湖施氏假单胞细菌中则发现了负责四氢嘧啶(Ectoine)的合成和累积的完整基因簇。本研究首次从微囊藻群体中获得了两个几乎完整的附生细菌的基因组序列,这为后期研究微囊藻与其附生细菌之间的关系提供分子遗传基础。此外本研究中提出的构建混合培养系统的方法为研究其它类型的共生或者寄生关系提供了有效的参考。
其他文献
在现代战争条件下,一些重要经济军事设施面临着高精度制导弹武器的严重威胁,如何有效地保护这些设施的安全具有重要的战略意义。该文研究的组网雷达系统的近程应用,实际上是根据
采用溶胶-凝胶工艺,将氯化锂作为敏感组元复合到多孔二氧化硅中,经过适当的热处理,可获得在全湿量程范围内阻值范围适中,线性度良好的LiCl/SiO复合湿敏薄膜.并利用了XRD、AFM
该课题为"模拟电子线路多媒体CAI课件设计",来源于模拟电子线路211课程建设中的一个子项目.CAI(Computer--Assisted Instruction)即计算机辅助教学,作者把应用了 多媒体技术
作为一种智能传感器,模糊传感器必定是未来传感器发展的一个重要方向.该选取模糊传感器的一个重要的领域--模糊温度传感器进行研究.在简要介绍了模糊温度传感器的概念、理论
该论文对WDM光传送网的生存性策略进行了研究. 在分析了光传送网自愈方法的基础上,重点研究了OXC网状自愈网.首先,研究了空闲波长的配置问题, 提出了一种基于整数线性规划的
射频识另(RFID)通过电磁信号对目标进行非接触式的身份识读和信息交换,从而实现对物体在静止或移动状态下的自动识别技术。近几年来,RFID技术广泛应用于交通运输,物流管理等
目前数字电视技术的发展十分迅猛,数字电视相对于模拟电视具有不可比拟的优势.声音是数字电视不可缺少的重要组成部分.该论文主要研究的就是利用ADSP2181实现MPEG-1层Ⅱ(包括
互联网的普及和高速数据业务的兴起,网络带宽需求便出现爆炸式增长。随着光纤通信的发展,固网接入“光进铜退”的光纤到户,移动互联网的全面普及,高速增长的视频业务需求,云
随着现代通信技术的高速发展以及多媒体业务日趋多样化,要求无线网络规模不断扩大、多种传输制式并存,使得现代移动通信网络变得愈加复杂。以MIMO、OFDM、载波聚合等物理层技术
该文内容分为两个部分:一、"CDMA FWA多用户终端设备的设计".文中提出了基于CDMA的FWA多用户终端设备的构成方案,描述了设备的总体设计和控制电路硬件和软件部分的结构.合肥