效应蛋白数据库的构建及预测方法研究

来源 :西北农林科技大学 | 被引量 : 0次 | 上传用户:wangzhenx06
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
病原菌是一种能引起感染的微生物,在这个感染的过程中细菌会侵入到宿主细胞中产生和分泌效应蛋白,这些效应蛋白能够参与或操控细胞进程的各种重要活动。目前,有九种分泌系统在革兰氏阴性菌细胞中已被发现。但是并没有针对效应蛋白开发的注释信息数据库以及对于效应蛋白特征提取和预测的研究并不全面,因此构建一个效应蛋白数据库以及借助机器学习算法和数据挖掘的相关技术对效应蛋白序列进行分析,从而能够完成效应蛋白的预测具有非常重要的意义。本研究主要针对目前细菌Ⅲ/Ⅳ/Ⅵ型分泌系统中效应蛋白的数据库以及效应蛋白预测方法存在的不足之处,开发出细菌Ⅲ/Ⅳ/Ⅵ型分泌系统中效应蛋白的数据库系统SecretEPDB和提出细菌Ⅳ型分泌系统中效应蛋白的预测方法Bastion4。论文主要内容如下:(1)细菌Ⅲ/Ⅳ/Ⅵ型分泌系统中效应蛋白数据库系统SecretEPDB的构建。通过搜集细菌Ⅲ/Ⅳ/Ⅵ型分泌系统效应蛋白数据,使用生物信息工具或在不同的公开数据库中根据效应蛋白的序列提取其注释信息。同时使用MySQL数据库、Struts 2、Hibernate等计算机技术构建SecretEPDB数据库系统。该数据库系统能够对三种效应蛋白提供丰富的注释信息,主要包括:蛋白质基本信息、蛋白质功能、蛋白质二级结构、Pfam区域、KEGG通路信息等。与目前其他效应蛋白数据库相比,SecretEPDB数据库系统中的数据都是经过实验验证的确定性效应蛋白序列,并能提供每一条效应蛋白多方面的注释信息和相应的统计分析工作。(2)细菌Ⅳ型分泌系统效应蛋白的预测方法Bastion4的研究。该方法的构建步骤为搜集细菌Ⅳ型分泌系统中效应蛋白的序列并进行数据预处理,计算并提取蛋白质局部序列编码特征、全局序列编码特征、结构描述编码特征等的不同类型特征,并使用GainRatio方法进行特征选择,结合随机森林算法构建预测模型,最后使用集成学习算法中多数投票机制对不同的模型进行集成,得到细菌Ⅳ型分泌系统效应蛋白的预测方法Bastion4。通过实验和案例分析证明:使用不同但是互补的蛋白质特征能够更好的提高预测性能;在基于单一特征的分类器基础上使用集成学习算法能够更好的完成效应蛋白的预测。相比于现有的两个方法T4EffPred和T4SEpre,Bastion4对细菌Ⅳ型分泌系统中效应蛋白的预测性能最优,F值高达94.2%。
其他文献
为积极探索和发展我国的期货交易市场,自1992年以来,先后建立了金属、粮油、石油、建材、化工和汽车等十余家商品期货交易所。这些商品交易所的建立,对进一步健全和发展社会
我今年87岁,一辈子在教会侍奉,一辈子生活在上海,一度担任上海市基督教教务委员会主席,亲身经历了基督教在上海的变化。上海是沿海重镇,中西文化交流频繁,基督教进入中国后,
目的采用网络药理学方法挖掘丹蒌片治疗冠心病的作用机制,以期为其临床应用提供依据。方法首先从TCMSP中挖掘丹蒌片中的中药所含化学成分及作用靶点,建立丹蒌片“成分-靶点”
通腑法在老年疾病中的运用体会南京市级机关医院(210008)刘孝玲经云:“病在表,则汗之:在半表半里,则和之;病在里则下之而已。”下法为八法之一,又有通腑法之称.常用于邪在肠胃、燥矢停结之里
目的 对比观察关节镜下应用全内和外内缝合法治疗半月板损伤的临床疗效。方法 选择2015年3月至2015年9月接受治疗的半月板损伤患者100例,按照患者自身的具体情况分为观察组和
概述小麦全程机械化生产技术的主要内容、作业要点及作用,通过具体的试验数据计算,分析小麦全程机械化生产的工作效率、工时支出、种肥用量、产量及经济效益,为提高小麦生产
<正> 一、期货交易主体资格纠纷案件的认定及处理 期货交易通常涉及三类主体,一是期货交易人,这类主体是不特定的,凡具备民事行为能力的自然人和法人均可成为期货交易人,一般
伴随城市规模的快速发展,城市中用地空间越来越紧张。基坑工程的规模和深度不断扩大,预应力锚杆复合土钉墙以其施工快、造价低的特点在基坑工程中被广泛应用,然而对于预应力