论文部分内容阅读
近半个世纪以来,随着现代医学的快速发展,人类的健康水平得到了极大的提高。但是,细菌性传染病依旧威胁着全球的公共卫生安全,目前仍然是全球范围内造成死亡的主要原因之一。特别是近年来一些细菌在药物和环境的选择压力下,通过自身的变异和进化,产生了一些“新”的致病菌,给临床治疗带来巨大的困难。毒力因子是致病菌所编码的能够促使其在宿主环境中定植、繁殖和致病的基因产物的统称,是阐明细菌致病机理的关键,也是相关传染病防控和干预的重点。因此,致病菌毒力因子的研究一直是微生物学的重点领域之一。
近年来,由于第三代测序技术的逐步成熟和广泛应用,测定细菌完整基因组的经济成本和时间周期大幅下降,因而促使越来越多的研究人员采用完整基因组分析手段进行毒力因子相关研究。在公共数据库中也随之出现了大量的细菌完整基因组数据(包括高质量的基因组草图)。如何从大量的细菌基因组数据中快速、准确的识别出潜在的毒力因子,成为病原生物学相关的生物信息学分析中一项重要的研究内容。本研究依托前期建立的致病菌毒力因子数据资源中心VFDB的数据基础,设计开发了适用于完整基因组或高质量的基因组草图数据的致病菌毒力因子在线分析平台VFanalyzer。
传统的序列相似性检索中通常使用比对分值作为判断蛋白同源性的标准,但是该方法在应用于全基因组数据分析时很容易因为旁系同源(Paralogous)蛋白的存在而导致假阳性的结果。并且,单纯依赖序列相似性的分析方法,很容易遗漏序列差异较大的同源蛋白而带来假阴性的结果。因此,VFanalyzer引入了比较基因组学的分析技术辅助进行毒力因子的准确识别。首先,基于VFDB数据库中已注释的致病菌基因组数据集,选择一个或多个与查询基因组(Query genome)相同种(species)或属(genus)的参考基因组(Reference genomes)联合开展聚类分析,在全基因组水平进行直系同源(Orthologous)蛋白的鉴别,由此有效的降低了因旁系同源带来的假阳性。然后,利用VFDB数据库中的分层数据集进行迭代式相似性检索,从而进一步提高了毒力因子识别的灵敏度和特异性。最后,特别针对由基因簇编码的毒力因子(如分泌系统),设计了基于组成蛋白编码基因位置信息的优化算法,一方面排除潜在的假阳性结果,另一方面弥补可能的假阴性结果。经过反复测试和参数优化,VFanalyzer的全基因组毒力因子识别准确率基本上达到了人工分析的水平。
同时,为了更好的展示毒力因子分析结果,本研究通过使用最新版本ExtJS6的JavaScript类库,基于VFDB数据库网页设计构建了一个结构清晰、功能丰富、简单易用、界面美观的毒力因子后续分析平台。该平台把查询基因组的VFanalyzer分析结果和数据库中同属参考基因组的毒力因子以比较基因组学的形式同时呈现给研究人员,从而通过比较不同菌株之间毒力因子的分布和构成,为探索不同菌株间的致病性差异和进化关系等提供线索。
本研究针对大量致病菌基因组数据的毒力因子快速分析需求,解决了单纯依赖序列相似性检索中容易出现的假阳性和假阴性率过高的关键问题,设计开发了具有较高准确率的毒力因子在线分析系统VFanalyzer,并构建了界面友好、功能丰富的后续分析平台,为毒力因子相关的致病菌基因组大数据分析奠定了基础。
近年来,由于第三代测序技术的逐步成熟和广泛应用,测定细菌完整基因组的经济成本和时间周期大幅下降,因而促使越来越多的研究人员采用完整基因组分析手段进行毒力因子相关研究。在公共数据库中也随之出现了大量的细菌完整基因组数据(包括高质量的基因组草图)。如何从大量的细菌基因组数据中快速、准确的识别出潜在的毒力因子,成为病原生物学相关的生物信息学分析中一项重要的研究内容。本研究依托前期建立的致病菌毒力因子数据资源中心VFDB的数据基础,设计开发了适用于完整基因组或高质量的基因组草图数据的致病菌毒力因子在线分析平台VFanalyzer。
传统的序列相似性检索中通常使用比对分值作为判断蛋白同源性的标准,但是该方法在应用于全基因组数据分析时很容易因为旁系同源(Paralogous)蛋白的存在而导致假阳性的结果。并且,单纯依赖序列相似性的分析方法,很容易遗漏序列差异较大的同源蛋白而带来假阴性的结果。因此,VFanalyzer引入了比较基因组学的分析技术辅助进行毒力因子的准确识别。首先,基于VFDB数据库中已注释的致病菌基因组数据集,选择一个或多个与查询基因组(Query genome)相同种(species)或属(genus)的参考基因组(Reference genomes)联合开展聚类分析,在全基因组水平进行直系同源(Orthologous)蛋白的鉴别,由此有效的降低了因旁系同源带来的假阳性。然后,利用VFDB数据库中的分层数据集进行迭代式相似性检索,从而进一步提高了毒力因子识别的灵敏度和特异性。最后,特别针对由基因簇编码的毒力因子(如分泌系统),设计了基于组成蛋白编码基因位置信息的优化算法,一方面排除潜在的假阳性结果,另一方面弥补可能的假阴性结果。经过反复测试和参数优化,VFanalyzer的全基因组毒力因子识别准确率基本上达到了人工分析的水平。
同时,为了更好的展示毒力因子分析结果,本研究通过使用最新版本ExtJS6的JavaScript类库,基于VFDB数据库网页设计构建了一个结构清晰、功能丰富、简单易用、界面美观的毒力因子后续分析平台。该平台把查询基因组的VFanalyzer分析结果和数据库中同属参考基因组的毒力因子以比较基因组学的形式同时呈现给研究人员,从而通过比较不同菌株之间毒力因子的分布和构成,为探索不同菌株间的致病性差异和进化关系等提供线索。
本研究针对大量致病菌基因组数据的毒力因子快速分析需求,解决了单纯依赖序列相似性检索中容易出现的假阳性和假阴性率过高的关键问题,设计开发了具有较高准确率的毒力因子在线分析系统VFanalyzer,并构建了界面友好、功能丰富的后续分析平台,为毒力因子相关的致病菌基因组大数据分析奠定了基础。