论文部分内容阅读
蛋白质是基因功能的主要执行者,对蛋白质功能进行研究是基因组学研究领域的重中之重。然而,每种亚细胞为蛋白质行使特定功能提供了场所,蛋白质只有转运到其相应的的亚细胞中,才能正确的发挥作用,支持生命活动健康有序的进行,否则,将会造成机体功能紊乱,甚至威胁到生命健康。因此,对蛋白质所处的亚细胞位点进行研究预测是研究蛋白质功能的基础,同时也为研究某些疾病的发病机理以及研制针对疾病的新药物提供了研究理论基础。生物信息学和基因组学的快速发展,使实验所得数据库中蛋白质数据以几何方式倍增,研究由原来运用传统方式逐渐开始改用生物信息学的手段进行处理海量数据。而且,由于很多实验数据表明30%以上的蛋白质可以同时位于多个亚细胞位置或者在多个亚细胞间游走,研究也由对蛋白质亚细胞进行单位点预测转变为多位点预测。因此,运用生物信息学的手段进行多位点蛋白质亚细胞定位预测是目前研究的热门方向。采用生物信息学的方法进行多位点蛋白质亚细胞定位预测通常分为四步:一是构建有效的多位点蛋白质数据集;二是对构建的数据集进行全面有效的特征提取;三是分类器的选取,由于多位点蛋白质亚细胞定位预测是一个典型的多标记学习问题,因此选用合适的多标签分类算法是研究预测的关键一步;四是对预测算法的评估,通过预测结果评估分类算法的好坏。多位点蛋白质亚细胞定位预测的关键步骤是对数据集的特征提取和分类算法的选择。其中特征提取方法很多,包括基于序列信息的和基于注释信息的特征提取方法。本文在对数据集进行特征提取时,采用了基于序列信息的多种特征提取方法,有氨基酸组成模型,伪氨基酸组成模型,氨基酸理化性质组成模型,熵密度,自相关系数编码,位置向量组成模型。由于每种特征提取方法都有其局限性,因此本文将多种特征提取方法进行了融合并做以比较,以提取出更全面有效的特征。该问题是典型的多标签分类问题,随着该问题的出现也涌现出了很多多标签分类算法,常用的有多标签k近邻算法(ML-kNN)、反向传播神经网络多标签算法(BP-MLL)、多标签支持向量机算法(Rank-SVM)、决策树多标签算法、LEAD算法等,本文对这几类算法简单介绍,并将多标签k近邻算法(ML-kNN)运用到数据集的分类预测中,取得了较高的预测精确度。