论文部分内容阅读
病原菌是一种能引起感染的微生物,在这个感染的过程中细菌会侵入到宿主细胞中产生和分泌效应蛋白,这些效应蛋白能够参与或操控细胞进程的各种重要活动。目前,有九种分泌系统在革兰氏阴性菌细胞中已被发现。但是并没有针对效应蛋白开发的注释信息数据库以及对于效应蛋白特征提取和预测的研究并不全面,因此构建一个效应蛋白数据库以及借助机器学习算法和数据挖掘的相关技术对效应蛋白序列进行分析,从而能够完成效应蛋白的预测具有非常重要的意义。本研究主要针对目前细菌Ⅲ/Ⅳ/Ⅵ型分泌系统中效应蛋白的数据库以及效应蛋白预测方法存在的不足之处,开发出细菌Ⅲ/Ⅳ/Ⅵ型分泌系统中效应蛋白的数据库系统SecretEPDB和提出细菌Ⅳ型分泌系统中效应蛋白的预测方法Bastion4。论文主要内容如下:(1)细菌Ⅲ/Ⅳ/Ⅵ型分泌系统中效应蛋白数据库系统SecretEPDB的构建。通过搜集细菌Ⅲ/Ⅳ/Ⅵ型分泌系统效应蛋白数据,使用生物信息工具或在不同的公开数据库中根据效应蛋白的序列提取其注释信息。同时使用MySQL数据库、Struts 2、Hibernate等计算机技术构建SecretEPDB数据库系统。该数据库系统能够对三种效应蛋白提供丰富的注释信息,主要包括:蛋白质基本信息、蛋白质功能、蛋白质二级结构、Pfam区域、KEGG通路信息等。与目前其他效应蛋白数据库相比,SecretEPDB数据库系统中的数据都是经过实验验证的确定性效应蛋白序列,并能提供每一条效应蛋白多方面的注释信息和相应的统计分析工作。(2)细菌Ⅳ型分泌系统效应蛋白的预测方法Bastion4的研究。该方法的构建步骤为搜集细菌Ⅳ型分泌系统中效应蛋白的序列并进行数据预处理,计算并提取蛋白质局部序列编码特征、全局序列编码特征、结构描述编码特征等的不同类型特征,并使用GainRatio方法进行特征选择,结合随机森林算法构建预测模型,最后使用集成学习算法中多数投票机制对不同的模型进行集成,得到细菌Ⅳ型分泌系统效应蛋白的预测方法Bastion4。通过实验和案例分析证明:使用不同但是互补的蛋白质特征能够更好的提高预测性能;在基于单一特征的分类器基础上使用集成学习算法能够更好的完成效应蛋白的预测。相比于现有的两个方法T4EffPred和T4SEpre,Bastion4对细菌Ⅳ型分泌系统中效应蛋白的预测性能最优,F值高达94.2%。