基于HOG-Cos-PSSM特征表达和TKSE集成方法的氧化还原酶分类预测

来源 :云南大学 | 被引量 : 0次 | 上传用户:fishe1042
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,随着生物医学界对于氧化还原酶的认知逐步加深,其在药物研究以及疾病诊断方面的作用愈发被重视。氧化还原酶有许多具有不同功能的亚类,因此对其进行准确的分类是生物信息学中的一项重要任务。传统生物方法对其进行类别研究存在花费时间长、所需费用高的问题。但如果可以根据它的序列建立有效的机器学习方法,将会对其亚家族分类研究提供非常有效的帮助。随着机器学习以及生物信息的发展,基于计算机算法的蛋白质序列识别研究得到了长足的发展。众所周知,酶的本质是蛋白质,因此本文考虑对酶蛋白序列进行特征描述,并结合机器学习算法对其进行分类预测研究,试图以此构建一个高效准确的预测方法。为了高效准确的进行预测,本文研究分为两个方面:针对酶蛋白序列特征描述方法的研究改进、预测分类器的构造,分别提出了 HOG-Cos-PSSM(Histogram of Oriented Gradient-Cosine similarity-PSSM)特征描述 方法和 TKSE(T-sne+K-means&Selection ensemble classifier framework)集成分类框架。第一,本文对现有的特征描述方法进行总结,针对酶蛋白序列特征矩阵位置信息丢失的问题,引入方向梯度直方图和余弦夹角相似度的概念,分别提出HOG-PSSM(Histogram of Oriented Gradient PSSM)>Cos-PSSM(Cosine similarity PSSM)。并且在相关性分析之后进行特征融合提出HOG-Cos-PSSM特征描述方法。实验表明,HOG-Cos-PSSM特征描述方法有效的对现有特征描述方法进行改进。第二,在分类器研究方面,本文使用多分类器集成方法,引入“能力区域”和“区域选择集成”的概念并提出TKSE集成分类框架。首先,使用基于t分布的随机近邻嵌入算法T-sne和K-means聚类算法对样本空间进行“能力区域”的划分。然后,对区域中各基分类器进行筛选并使用Stacking层次集成框架以构成各区域的集成分类器。最后,测试样本选择相似度最高区域对应的集成分类器进行分类。大量实验结果证实,TKSE集成分类框架的预测效果明显高于各基分类器,并且其与HOG-Cos-PSSM特征描述方法共同使用将氧化还原酶分类预测精度提升至95.87%。本文所提出的HOG-Cos-PSSM特征描述方法与TKSE集成分类框架有效提高了氧化还原酶分类预测精度,此方法是对现有预测方法的有效补充。
其他文献
体检之后,大多数女性的体检报告上都会有一个词——宫颈糜烂。“宫颈糜烂就是说你的子宫开始烂了”“不治的话,整个子宫都会烂掉”“别说生孩子了,可能以后来例假都会成问题”……不少女性在江湖游医这样的恐吓下,在治疗宫颈糜烂这件事上花了不少钱财和精力。但如果到正规医院妇科看病,妇科医生通常说不用特别治疗。这究竟怎么回事呢?一种正常生理现象  在过去的医学资料里面,宫颈糜烂被分为3个程度,分别是轻度、中度和重
企业宣传工作总是被认为是很“虚”的工作,加之工作方式落后、内容陈旧、跟不上形势、不能为企业带来效益,宣传工作难以开展。在新时期市场经济形势下,把项目化管理的思想和
为有效治理毒品问题,打击和治理毒品违法犯罪活动,帮助吸毒人员更好的戒除毒瘾回归社会,2008年实行的《禁毒法》规定了社区戒毒的全新戒毒模式,同时确立了以自愿戒毒、社区戒毒、强制隔离戒毒和社区康复为模式的戒毒工作体系。滨州市滨城区针对辖区内的毒品形势,进行了一系列社区戒毒的实践,但由于当前社区戒毒工作体系不够成熟,因此也出现了一些困难和问题。这些问题包括:职能部门配合力度不够,缺乏稳定专业的社区戒毒
说到长寿,大家都想到的是生活要有好习惯,可你知道吗?生活中一些坏习惯也会有些令人意外的好处,利用得好的话也能促进长寿。