基于多标记学习的蛋白质亚细胞定位预测

来源 :济南大学 | 被引量 : 4次 | 上传用户:seacowo
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
蛋白质是基因功能的主要执行者,对蛋白质功能进行研究是基因组学研究领域的重中之重。然而,每种亚细胞为蛋白质行使特定功能提供了场所,蛋白质只有转运到其相应的的亚细胞中,才能正确的发挥作用,支持生命活动健康有序的进行,否则,将会造成机体功能紊乱,甚至威胁到生命健康。因此,对蛋白质所处的亚细胞位点进行研究预测是研究蛋白质功能的基础,同时也为研究某些疾病的发病机理以及研制针对疾病的新药物提供了研究理论基础。生物信息学和基因组学的快速发展,使实验所得数据库中蛋白质数据以几何方式倍增,研究由原来运用传统方式逐渐开始改用生物信息学的手段进行处理海量数据。而且,由于很多实验数据表明30%以上的蛋白质可以同时位于多个亚细胞位置或者在多个亚细胞间游走,研究也由对蛋白质亚细胞进行单位点预测转变为多位点预测。因此,运用生物信息学的手段进行多位点蛋白质亚细胞定位预测是目前研究的热门方向。采用生物信息学的方法进行多位点蛋白质亚细胞定位预测通常分为四步:一是构建有效的多位点蛋白质数据集;二是对构建的数据集进行全面有效的特征提取;三是分类器的选取,由于多位点蛋白质亚细胞定位预测是一个典型的多标记学习问题,因此选用合适的多标签分类算法是研究预测的关键一步;四是对预测算法的评估,通过预测结果评估分类算法的好坏。多位点蛋白质亚细胞定位预测的关键步骤是对数据集的特征提取和分类算法的选择。其中特征提取方法很多,包括基于序列信息的和基于注释信息的特征提取方法。本文在对数据集进行特征提取时,采用了基于序列信息的多种特征提取方法,有氨基酸组成模型,伪氨基酸组成模型,氨基酸理化性质组成模型,熵密度,自相关系数编码,位置向量组成模型。由于每种特征提取方法都有其局限性,因此本文将多种特征提取方法进行了融合并做以比较,以提取出更全面有效的特征。该问题是典型的多标签分类问题,随着该问题的出现也涌现出了很多多标签分类算法,常用的有多标签k近邻算法(ML-kNN)、反向传播神经网络多标签算法(BP-MLL)、多标签支持向量机算法(Rank-SVM)、决策树多标签算法、LEAD算法等,本文对这几类算法简单介绍,并将多标签k近邻算法(ML-kNN)运用到数据集的分类预测中,取得了较高的预测精确度。
其他文献
互联网愈发深入渗透到大学生的学习、工作和生活,培育良好网络文明素养对大学生健康成长、社会和谐稳定、国家长治久安等具有重要现实意义。网络文明素养包括网络政治安全素
目的探讨采用Tei指数和组织多普勒方案对糖尿病性心肌病患者以及高血压性心肌病患者的左心功能的影响。方法将接受检验者分为A(糖尿病性心肌病组和高血压性心肌病组)、B(正常
<正>人地观念是地理核心素养的核心与灵魂,其包含正确的自然观、资源观、环境观、人口观、发展观等。人地观念的构建与培养对于地理课程改革有重要价值。分析地理核心素养的
以胆固醇为惟一碳源和能源 ,从食肉动物雪豹肠道分离出一株胆固醇降解酶活力较高的 T12 - 1菌株 ,初步鉴定为好气性芽孢杆菌。经实验确定 ,其胆固醇降解酶产生的最适宜条件为
合理的激励方案设计与激励政策实施能够有效调动科技人才积极性,充分发挥其创造力。民办高校科技人才作为高校科技人才群体的重要组成部分,在创新驱动发展战略实施中有着不可
<正>奥斯卡最佳外语片大奖的头衔,并不足以显示[资产阶级的审慎魅力]取得的成就——作为一部荒诞而怪异的艺术片,它成为导演布努埃尔最受欢迎的影片,也是上座率最高,获得接受
大龄未婚女教师婚姻难问题的调查九十六中学蒋安娜近年来,社会上大龄未婚女性的队伍有逐渐扩大的趋势,特别在女知识分子中,这一问题更为突出,使一些大龄未婚女知识分子感到困惑和
针对动态贝叶斯网络(DBN)结构学习问题,提出了一种基于贝叶斯优化(BOA)的DBN结构寻优算法。首先,从传统进化优化机制的基本理论和基本操作入手,刻划了基于概率模型进化算法的基本
目的 检测非小细胞肺癌患者血清中血管内皮生长因子(VEGF)变化水平,评估治疗对VEGF的影响及其临床作用,探讨VEGF在非小细胞肺癌患者化疗或手术后疗效评估的指导意义.方法 应用