细菌蛋白质编码基因识别系统的研究

来源 :电子科技大学 | 被引量 : 3次 | 上传用户:hsxgodkiller
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
基因识别是对DNA序列进行分析,获取其中重要信息的第一步。目前测序技术的发展使得测序数据呈爆发式增涨,然而实验方法无法快速有效的从海量信息中获取知识,基于此运用计算机技术来识别基因的方法应运而生。在2015年,我们课题组研发了原核生物基因识别程序ZCURVE3.0,该算法是基于Z曲线理论,采用新的机器学习算法SVM,增加新的特征变量,并且对内部参数进行进一步的优化,使得该识别算法更加快速准确高效。在预测出基因后,还需要知道其相应编码的蛋白质,于是我们基于ZCURVE3.0算法,对其进行进一步的升级,添加相关的功能,使得其成为完善的可视化集成系统。在本基因识别可视化系统中,第一部分是对ZCUREV3.0的功能进行可视化(BAGA)实现,其保留了相应识别算法的所有功能。在通过对50个原核生物的全基因组进行测试,选取比对阈值,排除伪基因,同时使得删除的正确基因数尽可能少,那样基本保持正确的基因数不变。在与GenBank提供的总的基因数相比,BAGA的预测基因识别率为97.60%,预测结果的特异度为96.74%,与ZCURVE3.0的特异度94.21%相比有2%的提升。BAGA附加预测率为3.34%,比ZCURVE3.0(6.08%)下降接近3%。附加预测率的降低,表明其预测错误的基因数目相比ZCURVE3.0有更进一步的减少。第二部分是对于ZCURVE3.0和Prodigal两个基因预测软件联合方法(BAGA2.0)的实现,通过保留两者预测相同的基因,对不同的基因进行序列比对,调节合适的参数,保留比对得分较高的基因,将这两部分的基因作为最终联合预测的基因。BAGA2.0对应的识别率为98.73%,特异度为96.09%。这两者性能,都比ZCURVE3.0效果要好。另一方面,BAGA2.0的附加预测率为4.08%比ZCURVE3.0(6.08%)要低。综合来看,联合两者来识别细菌的基因性能要更优。此外,虽然BAGA2.0的特异度比BAGA要低,其附加预测率要大,但是其识别率和准确度却更佳。在本文中采用BLAST序列比对实现了对于预测的基因进行功能注释,对于系统中实现的两部分的预测结果都能够实现注释,而且能够选择快速注释和完全注释两者不同方式。同时,集成基因组岛预测程序。我们将此完善的集成软件编译成各种不同系统的版本,使用者能够访问http://cefg.cn/zcurve-visualization/下载,并免费使用。
其他文献
烟色离褶伞最适培养条件是葡萄糖作为碳源,蛋白胨作为氮源,C/N调整到40:1,最适pH为6,最适培养温度25℃。烟色离褶伞为变温出菇型食用菌,最适出菇温度(17±5)℃,最适出菇光照
目的比较腹腔镜手术与开腹手术治疗肥胖妇女早期宫颈癌的临床疗效。方法回顾性分析2016年1月—2018年6月在本院进行手术治疗的88例肥胖妇女早期宫颈癌患者的病历资料,其中腹
少数民族在长期历史发展过程中形成了独特的文化,文化中蕴含着深刻的民族精神,包含着民族发展过程中的历史、文化等,文化是繁荣的、是生生不息的,让幼儿了解学习民族文化对于开拓
<正>众所周知,素描作为造型艺术的基础内容,其自身的发展由来已久。早在15世纪的西方绘画体系中,素描已作为众多绘画形式的基础造型手段而存在,在经历了文艺复兴时期各绘画流
目的:了解我国老年预包装食品市场,为老年食品国家标准的制定及老年食品的研发提供科学依据。方法:使用横断面调查,分析收集的220例预包装老年食品营养声称情况。结果:220例
<正>医疗服务的对象是渴望解除病痛的患者和希望保持健康的人们,医院要最大限度地为病人解除病痛,不仅需要医务人员具有精湛的专业技术,还要有高尚的医德品质。特别是在新的
瑜伽是一项具有古老历史的强身健体之术,伴随社会的逐步发展,此项运动已经有很大的普及,而处在当今全民健身的大环境下,瑜伽也开始被纳入国家教育体系,越来越多的高中开设了
校园物质文化要显现职业性。校园物质文化是校园文化建设的载体,它以优美的校园环境和先进的教学设施及所包含的丰富文化内涵来熏陶和净化学生。现代化的实训场地、实训设备、
学位
一、金属的疲劳断裂金属材料或机械构件在循环负载或交变应力作用下,经过较长时间工作而发生断裂的现象叫做金属的疲劳。它们所承受的应办通常都低于材料的强度极限,有时也
文章探讨国有资本投资效率的市场环境与影响因素,通过构建FHP模型,选取2011—2016年我国198家上市企业进行实证分析,研究我国国有资本投资效率的经济增长效应。提出可以通过