基于序列与支持向量机预测蛋白质相互作用的数据集构造与精度分析

来源 :华南理工大学 | 被引量 : 0次 | 上传用户:jlq100
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
蛋白质在细胞的生命活动中扮演着重要角色,是细胞活性及功能的最终执行者,蛋白质功能的发挥是通过蛋白质之间的相互作用实现的,蛋白质间的相互作用是所有生物体保持正常生理功能的基础。传统的实验方法虽然积累了大量的蛋白质相互作用信息,但是存在一定的局限性,例如费用大,耗时长,实验结果有一定的假阳率等。近年来许多研究人员利用支持向量机等机器学习工具结合蛋白质特征编码算法对蛋白质相互作用进行预测,设计了许多具有不同预测精度的方法,经过实验,我们发现多数预测方法的精度存在偏差。本文使用人类和酵母菌的蛋白质相互作用数据集,结合多个蛋白质序列编码算法,研究利用支持向量机预测蛋白质相互作用的预测精度与数据集的蛋白质平均重复度间的关系。主要内容如下:首先利用图的邻接矩阵和和最大匹配分别对人类和酵母菌构造出两类数据集,两类数据集中的每个数据集都具有不同的蛋白质平均重复度。然后用三联体、局部描述符、自动协方差和伪氨基酸组成这四种基于蛋白质特征的序列编码算法对构造的数据集进行编码,用支持向量机对编码后的数据进行训练与预测。最后对预测结果进行了详细分析。实验结果表明,基于四种序列编码算法和支持向量机的计算方法对蛋白质相互作用预测,预测精度受到正负数据集中的蛋白质平均重复度影响。随着数据集中蛋白质样本的平均重复度由高到低的变化,相应预测精度也随之相应变化。由此,我们得出结论:正负数据集中蛋白质的平均重复度对支持向量机的预测精度有直接的影响,利用支持向量机预测蛋白质相互作用时,不但要考虑蛋白质编码算法,还要考虑正负数据集中的蛋白质平均重复度。
其他文献
磁共振设备以其特殊的成像原理在医学诊断领域得以广泛应用。其图像作为患者病况表征的重要依据,对扫描设备所成影像的空间精度和准确度提出了更高要求,目前多以质控体模对其
目前人口老龄化的趋势日益明显、人口老龄化问题加剧,导致了人们对居家养老服务的刚性需求不断增加。所以对老年人进行健康监护十分必要,并且这将成为现代家庭首选的养老模式
设G是一个图,A是一个阿贝尔群,对G通过连续收缩非平凡的A-连通的子图,直到没有非平凡的A-连通的子图剩余为止,得到的图记为G*,我们就说G能A-可收缩到G*.K4通过增加一个顶点v
近年来,我国电网遭受不少自然灾害,较为典型的灾害类型为台风灾害与地震灾害,珠海地处中国东南沿海地区,台风灾害比较频繁,在台风登陆时,输电线路整体结构会承受巨大的外部荷载,铁塔以及导地线等薄弱之处可能发生屈服、断裂等,严重时会发生倒塔、断线现象。为深入了解台风天气珠海地区的输电杆塔防风能力和存在的倒塔危险,本文从“天鸽”台风对珠海输电线路损害的实例情况出发,做了相关的研究与分析。首先,通过对“天鸽”
目的:通过对皮肤和皮肤结构感染(Skin and skin structure infections,SSSI)的治疗方法进行系统的回顾和网状meta分析(Network meta-analysis,NMA),旨在评价新型的环脂肽类药物达托霉素的疗效和安全性。方法:按照预先制定的检索策略,检索Pubmed、Embase、The Cochrane Library、The Clinical Trial
随着我国老龄化程度的不断加深,失能老人规模逐渐扩大,长期护理呈现多层次的需求。从长期护理保险制度的实施过程来看,基本可以分为照护需求评估、服务方案设计、服务提供三
学位
复杂网络的研究可应用于众多领域之中,现实生活和研究领域的复杂系统均可看成是复杂网络。复杂网络的分析算法可以揭示出复杂网络结构和特性,其中社团结构的识别和平均路径长度
工业互联网是工业自动化通过信息技术,和工业领域的运营内容结合,与企业的管理决策系统联结在一起的一种泛在网络思想和技术。由于其近年来逐步受到工业界的关注成为热点,在
在众多储能设备中,超级电容器以功率密度高、循环寿命长等优点备受青睐。然而,目前商业化的超级电容器电极材料仍以碳基材料为主,因其比电容值较小,迫切需要发展高导电性、高比电容的先进电极材料。二维纳米材料具有较大的比表面积,更利于电解质离子传输,孔隙结构能够缩短电解质扩散距离,增加电解质与电极材料的接触面积。此外,阴离子缺陷可以通过增加材料的导电性和活性位点提高电容性能。因此,为获得优异的电极材料,本文