论文部分内容阅读
蛋白质是生命活动的主要承担者,其序列决定生物的功能和性质,蛋白质功能预测能够揭示生命的本质现象和生理机能。因此,基于序列对蛋白质功能的探索不断推进。自人类进入后基因组时代,蛋白质序列的数量呈爆炸式增长,然而使用传统的实验方法实现蛋白质功能预测成本高昂、周期较长,且难以完成数量巨大的蛋白质功能测定。计算机技术的迅猛发展促进了数据挖掘和机器学习的研究进展,计算机建模方法为生物序列功能的研究提供了另一条可选的有效途径。
海藻光合固碳是海洋碳循环中至关重要的部分,其对于二氧化碳等温室气体的吸收、转化和利用能够有效延缓全球气候变暖的趋势,有利于环境保护、社会和自然的协调以及经济的可持续发展。精准预测和识别海藻固碳蛋白对于在分子水平上研究藻类固碳机制意义重大。论文提出了一种基于机器学习和综合序列特征的藻类固碳蛋白的预测方法,实验验证结果表明,所提出的方法具有较高的预测准确率。
论文收集整理了来自UniPort数据库的五个海藻门类的蛋白质序列数据。针对海藻蛋白数据的不平衡问题,首先对正负样本进行了重新采样处理。在使用机器学习方法研究生物序列结构和功能的实验过程中,提取有效特征是一个关键步骤。因此,论文分别基于官能团、香农熵、自相关和K-mers方法,将序列组成、氨基酸的物理化学属性以及序列的局部信息和全局信息考虑在内,提取了四种类型的蛋白质序列特征。
在各类型的特征训练测试中,自相关特征的预测效果优于其它三类特征。然而,单独选用每类特征对序列数据提取的信息并不全面,整合全部特征会提升海藻固碳蛋白的预测精准度。然而,高维特征会增加建模和计算复杂性,从而导致维度灾难等问题,因此,论文进行了特征打分和特征降维,实现使用更少的特征达到更好预测效果。
经过训练,整合后全部特征共439维,经特征筛选保留44维。为评估海藻固碳蛋白的预测效果,论文采用了敏感度等多种性能指标,在海藻数据集上使用K近邻(K-Nearest Neighbor,KNN)算法、朴素贝叶斯(Na(i)ve Bayes,NB)算法、神经网络(Neural Network,NN)算法、随机森林(Random Forest,RF)算法、支持向量机(Support Vector Machine,SVM)模型以及XGBoost(eXtreme Gradient Boosting)模型共六种机器学习方法对其进行综合评价,最终均达到满意预测效果。为评估实验效果,论文进行了统计检验分析和特征显著性分析,完成了海藻固碳蛋白的多序列比对并提取了与固碳功能密切相关的模体。实验结果表明,基于机器学习和综合序列特征的方法能够有效获取特征和预测藻类固碳蛋白,可为海藻固碳的研究提供崭新思路,进而为海藻固碳的蛋白质工程和基因工程做好理论储备,有助于在分子层面利用先进的信息技术研究海洋碳汇问题,缓解气候变暖带来的负面影响,促进自然和经济的和谐发展。
海藻光合固碳是海洋碳循环中至关重要的部分,其对于二氧化碳等温室气体的吸收、转化和利用能够有效延缓全球气候变暖的趋势,有利于环境保护、社会和自然的协调以及经济的可持续发展。精准预测和识别海藻固碳蛋白对于在分子水平上研究藻类固碳机制意义重大。论文提出了一种基于机器学习和综合序列特征的藻类固碳蛋白的预测方法,实验验证结果表明,所提出的方法具有较高的预测准确率。
论文收集整理了来自UniPort数据库的五个海藻门类的蛋白质序列数据。针对海藻蛋白数据的不平衡问题,首先对正负样本进行了重新采样处理。在使用机器学习方法研究生物序列结构和功能的实验过程中,提取有效特征是一个关键步骤。因此,论文分别基于官能团、香农熵、自相关和K-mers方法,将序列组成、氨基酸的物理化学属性以及序列的局部信息和全局信息考虑在内,提取了四种类型的蛋白质序列特征。
在各类型的特征训练测试中,自相关特征的预测效果优于其它三类特征。然而,单独选用每类特征对序列数据提取的信息并不全面,整合全部特征会提升海藻固碳蛋白的预测精准度。然而,高维特征会增加建模和计算复杂性,从而导致维度灾难等问题,因此,论文进行了特征打分和特征降维,实现使用更少的特征达到更好预测效果。
经过训练,整合后全部特征共439维,经特征筛选保留44维。为评估海藻固碳蛋白的预测效果,论文采用了敏感度等多种性能指标,在海藻数据集上使用K近邻(K-Nearest Neighbor,KNN)算法、朴素贝叶斯(Na(i)ve Bayes,NB)算法、神经网络(Neural Network,NN)算法、随机森林(Random Forest,RF)算法、支持向量机(Support Vector Machine,SVM)模型以及XGBoost(eXtreme Gradient Boosting)模型共六种机器学习方法对其进行综合评价,最终均达到满意预测效果。为评估实验效果,论文进行了统计检验分析和特征显著性分析,完成了海藻固碳蛋白的多序列比对并提取了与固碳功能密切相关的模体。实验结果表明,基于机器学习和综合序列特征的方法能够有效获取特征和预测藻类固碳蛋白,可为海藻固碳的研究提供崭新思路,进而为海藻固碳的蛋白质工程和基因工程做好理论储备,有助于在分子层面利用先进的信息技术研究海洋碳汇问题,缓解气候变暖带来的负面影响,促进自然和经济的和谐发展。