论文部分内容阅读
人类基因组计划成功实施后蛋白质测序技术得到快速发展,现如今蛋白质序列数据急剧增加。然而与序列认知程度相比,人们对蛋白质空间结构及功能的了解还远远不够。传统的实验方法和技术已难以满足海量蛋白质序列的分析需求,所以发展计算方法与预测模型来研究蛋白质空间结构及功能将具有深远的意义,这也成为生物信息学中最重要和最基本的课题之一。利用机器学习算法从大量已知蛋白质出发来预测出未知蛋白质空间结构和功能是一项辅助传统实验研究蛋白质性质的新方法。蛋白质结构类型是决定其高级结构和功能的重要因素,也能反映蛋白质的二级结构整体分布情况,因此,蛋白质结构类预测是蛋白质空间结构和功能预测的基础,对蛋白质组学研究具有重要意义。本文以蛋白质结构类预测方法为研究对象,主要研究内容如下: 首先在蛋白质特征信息提取方面,本研究基于位置特异性矩阵,考虑到矩阵两行多间隔之间的关联信息,提出了一种蛋白质进化信息的提取算法;根据蛋白质结构类的定义,设计了位置分布函数,提出了一种二级结构元素位置分布信息的提取算法;通过蛋白质结构域与二级结构之间的关联分析,提出了一种蛋白质结构模式信息的提取算法。 其次在特征信息挑选方面,本研究设计了基于特征排序与支持向量机(SVM)结合的封装器进行特征子集挑选,剔除冗余信息,筛选出每一类型特征信息中的核心特征信息。针对预测的蛋白质二级结构信息和蛋白质进化信息,分别挑选出其最优特征子集,再进行信息融合,通过大量的蛋白质结构类预测实验,与现有特征子集挑选算法进行比较,验证本文提出的特征挑选算法的有效性。 最后在预测算法方面,本研究比较了k-近邻算法和支持向量机在蛋白质结构预测中性能,在支持向量机的二分类的基础上,通过两种投票方法构建了多分类器提高蛋白质结构类预测准确度。