基于机器学习和综合序列特征的海藻固碳蛋白预测算法研究

来源 :山东大学 | 被引量 : 0次 | 上传用户:kevinlynx
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
蛋白质是生命活动的主要承担者,其序列决定生物的功能和性质,蛋白质功能预测能够揭示生命的本质现象和生理机能。因此,基于序列对蛋白质功能的探索不断推进。自人类进入后基因组时代,蛋白质序列的数量呈爆炸式增长,然而使用传统的实验方法实现蛋白质功能预测成本高昂、周期较长,且难以完成数量巨大的蛋白质功能测定。计算机技术的迅猛发展促进了数据挖掘和机器学习的研究进展,计算机建模方法为生物序列功能的研究提供了另一条可选的有效途径。
  海藻光合固碳是海洋碳循环中至关重要的部分,其对于二氧化碳等温室气体的吸收、转化和利用能够有效延缓全球气候变暖的趋势,有利于环境保护、社会和自然的协调以及经济的可持续发展。精准预测和识别海藻固碳蛋白对于在分子水平上研究藻类固碳机制意义重大。论文提出了一种基于机器学习和综合序列特征的藻类固碳蛋白的预测方法,实验验证结果表明,所提出的方法具有较高的预测准确率。
  论文收集整理了来自UniPort数据库的五个海藻门类的蛋白质序列数据。针对海藻蛋白数据的不平衡问题,首先对正负样本进行了重新采样处理。在使用机器学习方法研究生物序列结构和功能的实验过程中,提取有效特征是一个关键步骤。因此,论文分别基于官能团、香农熵、自相关和K-mers方法,将序列组成、氨基酸的物理化学属性以及序列的局部信息和全局信息考虑在内,提取了四种类型的蛋白质序列特征。
  在各类型的特征训练测试中,自相关特征的预测效果优于其它三类特征。然而,单独选用每类特征对序列数据提取的信息并不全面,整合全部特征会提升海藻固碳蛋白的预测精准度。然而,高维特征会增加建模和计算复杂性,从而导致维度灾难等问题,因此,论文进行了特征打分和特征降维,实现使用更少的特征达到更好预测效果。
  经过训练,整合后全部特征共439维,经特征筛选保留44维。为评估海藻固碳蛋白的预测效果,论文采用了敏感度等多种性能指标,在海藻数据集上使用K近邻(K-Nearest Neighbor,KNN)算法、朴素贝叶斯(Na(i)ve Bayes,NB)算法、神经网络(Neural Network,NN)算法、随机森林(Random Forest,RF)算法、支持向量机(Support Vector Machine,SVM)模型以及XGBoost(eXtreme Gradient Boosting)模型共六种机器学习方法对其进行综合评价,最终均达到满意预测效果。为评估实验效果,论文进行了统计检验分析和特征显著性分析,完成了海藻固碳蛋白的多序列比对并提取了与固碳功能密切相关的模体。实验结果表明,基于机器学习和综合序列特征的方法能够有效获取特征和预测藻类固碳蛋白,可为海藻固碳的研究提供崭新思路,进而为海藻固碳的蛋白质工程和基因工程做好理论储备,有助于在分子层面利用先进的信息技术研究海洋碳汇问题,缓解气候变暖带来的负面影响,促进自然和经济的和谐发展。
其他文献
天冬氨酸激酶(Aspartate Kinase,AK)是催化合成天冬氨酸家族氨基酸途径中的首个关键别构酶,受到代谢产物Thr与Lys的协同反馈抑制,以致该合成途径中下游产物难以大量积累。本研究旨在利用定点饱和突变提高AK酶活力并解除反馈抑制。在获得北京棒杆菌单体天冬氨酸激酶(CpAK)并分析其结构的基础上,选取ATP周围的关键残基位点并对其进行定点饱和突变,利用高通量筛选技术选取酶活力提高的突变株
浩如烟海的纸质文献是人类的宝贵财富,目前面临大规模的酸化老化现象,其中20世纪中后期的书籍文献等老化尤为严重,其用纸有相当一部分是酸性施胶的滑石粉加填纸。为了有针对性的保护这部分宝贵的文献资料,本文以滑石粉加填纸为研究对象,通过加速老化,在研究滑石粉老化后结晶程度、pH、电导率、粒径、白度、zeta电位等性能变化的基础上,研究了不同滑石粉加填量、酸性施胶条件下滑石粉的加填量等纸张加速老化后其pH、
该文首先阐述了水泥混凝土路面的结构特点、材料特点和破坏特点,然后根据混凝土的材料特点和物理、化学反应特点,分析了路面板初始损伤的形成机理和分布规律,并根据路面板在凝结过程中的受力情况,阐明板底初始裂缝的形成机理.在此基础上,根据水泥混凝土的损伤演变规律和路面板在荷载作用下的应力分布特点,分析了水泥混凝土路面板在荷载作用下的损伤特点,并根据断裂力学的原理,建立模型,进行具体数值的计算,分析板底裂缝的
飞翼布局无人机在气动效率和隐身性能上具有明显优势。随着无人机技术的进步,具备多任务能力的无人机逐渐成为研究热点。但是不同任务需求所规定的任务剖面不一,单一机型通常难以兼顾各飞行任务下的最优性能。无人机族策略为实现多任务能力提供了一种解决方案。本文研究对象是一种飞翼布局无人机族概念方案,包括打击和侦察任务的两个子机型,机身设计为通用平台,机翼设计为专用可替换模块。本文目的是为飞翼布局无人机族总体参数
学位
共轴高速直升机气动干扰研究是直升机空气动力学领域的一个热点研究课题。本文结合嵌套网格技术和虚拟桨叶模型,建立了基于CFD方法的共轴高速直升机双旋翼/机身/尾推干扰流场的数值模拟方法,应用该方法进行了悬停及前飞不同工况参数状态下共轴双旋翼、共轴双旋翼/机身以及共轴双旋翼/机身/尾推干扰流场的数值模拟研究。主要研究内容如下:  首先,第一章阐述了本文的研究背景及研究目的,分析了共轴高速直升机以及共轴双
学位
自Raisbeck1978年首先开展AMS10Be测量以来,经过近30年的发展,AMS10Be测量技术水平有了很大提高,测量本底不断降低,10Be计数率也不断提高。随着各种抑制10Be的同量异位素的方法的不断出现,使比较小型的AMS系统也能够用于10Be测量,但测量本底仍然较高。目前国际上基于大型加速器的AMS10Be测量容易达到较高测量灵敏度,小型化系统达到还有一定困难,中型系统经过仔细选择设计
学位
采用RFQ加速器中子源对于中子照相装置的小型化、可移动化具有非常重要的意义,从而对于中子照相应用的推广和新领域的开辟有重要作用。鉴于Be(d,n)反应在氘束能量小于3MeV时仍可获得较高的中子产额,北京大学正在发展基于RFQ加速器并采用Be(d,n)反应的小型中子照相装置。为了更好地设计和优化此装置,实现高质量的中子照相,我们在北京大学4.5 MV静电加速器上建立了中子照相实验平台,模拟基于厚铍靶
学位
为提高杉木加工利用附加值,将纳米高新科技与木材功能性改良相结合,采用溶胶凝胶法和微波辅助液相沉积法制备了杉木/TiO2复合材料,使半导体光催化材料TiO2以纳米薄膜的形式被负载于杉木表面,以期获得特殊的环保功能性。利用XPS、XRD、SEM-EDS、TEM、FTIR、JC2000A、TG-DSC、UV-VIS分析手段,对杉木/TiO2复合材料的形貌、表面结构与性能、TiO2在杉木/TiO2复合材料
学位
随着工农业生产的迅速发展,有机物种类的递增,水源的有机污染也在加剧.经常规处理后水厂出水已不能满足居民饮用水的要求.饮用水深度净化问题刻不容缓.UV-O联用技术作为一种新的水处理工艺,以其快速彻底的氧化特点,引起了人们的关注.该试验确定了紫外灯应用于水处理工艺的最佳参数,包括波长、光强、照射深度、水力要求等.该试验以自来水、苯胺、腐殖酸、硝基苯、对硝基苯酚、氯仿等为研究对象,考察了单独臭氧、单独紫
学位
胶质瘤是最常见的原发性脑肿瘤,有着高病发率、高死亡率的特点,严重危害着人类的生命健康。随着医学成像技术的发展,医学影像已成为辅助医生进行医学诊断和研究的重要手段,其中核磁共振成像(Magnetic resonance imaging,MRI)技术,由于其具有非入侵性、良好的空间分辨率和软组织分辨率等优点,被广泛应用于脑成像。脑肿瘤分割有助于医生对患者做出早期诊断、治疗规划和预后评估,但是手动分割费