基于机器学习方法的冷胁迫蛋白识别

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:louqiangdj
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
冷胁迫对生物的生长和生活有着极度严重的影响,尤其是对植物来说。对植物的冷胁迫调节机制的研究,对相关的生物技术研究以及提高农作物产量等都有重要意义。当前,对植物冷胁迫蛋白的识别主要依靠人工进行,这种方式费时费力。截止目前,通过前期的资料整理,对整个拟南芥的蛋白数据库进行统计,已发现的与冷胁迫相关的蛋白仅有594条。所以,利用机器学习的方法,通过对已有的数据进行训练和预测,以为生物实验提供数据支持,具有一定的意义和研究价值。在本课题中,仅仅有正例的数据以及拟南芥的全部蛋白质序列,其中在后者中包含很多的未发现的冷胁迫蛋白序列。所以,这里首先考虑了PU Learning方法,从理论上来讲PU Learning是最合适的方法之一。将除正例数据之外的蛋白序列作为未标记的数据。尝试了PUCPI和LibD3C两种当前比较常用的PU Learning算法,但结果仅在50%上下。之后开始采用常用的分类算法进行尝试,将之前的未标记数据作为负例数据处理,并在LibSVM中得到了较好的结果。除了对分类算法的尝试,实验中还尝试了多种特征提取方法,如Pse-One、K-SkipN-Gram、Information Theory等,以及对多种特征提取方法的组合。此时,分类的准确率提高到了80%以上。在最后,一个新的负例集合被构造出来(这样可以有效的降低负例集中包含的未发现的冷胁迫蛋白的数量),并把分类准确率提高到了85%左右,取得了较好的结果。在寻找到了一个较好的冷胁迫蛋白的预测方法后,对现有的数据进行了整理并搭建了冷胁迫蛋白数据库网站。网站采用了Maven、Spring Boot,Mybatis,Mysql、VUE等主流Java Web开发技术,主要使用Java语言进行开发。为使用者提供了对拟南芥冷胁迫蛋白进行序列浏览、全文检索(Lucence)、序列比对(Blast)与分类预测等功能。
其他文献
论文选取渤海湾盆地东营凹陷中央隆起带永安镇油田永3-1块为研究实例,通过对目的区块构造、储层、沉积特征分析精细研究,结合开发过程中存在问题,建立储层地质模型,对储层进
<正>打一场胜仗,成绩突出。胜利闭幕的全国政协十三届二次会议,充分体现了十三届全国政协以来人民政协的新风貌、新气象。再接再厉、连战连胜。全国两会闭幕不到一个月时间,
本文有关方召麐艺术创作活动的研究将主要围绕图像资料以及个人经历的梳理为基础而展开,现阶段基于方召麐的个案分析多以单纯的年表梳理及展览信息为主,而针对其个人艺术风格
针对我国目前社会养老保险制度存在的主要问题,从偿还隐型债务、扩大社会养老保险范围、开辟多种投资渠道实现养老保险基金保值增值等角度,对完善我国养老保险制度进行了思考
本文在分析岩溶,土体,地下水流场等基本条件的基础上,阐述了岩溶塌陷的形成机制,指出“水动力条件的突变”是区内塌陷集中出现的制约因素,并以此为依据,对岩溶塌陷的发生发展趋势进
银纳米粒子的微结构与组装状态控制是影响其性能与应用的关键,银纳米结构是表面等离子激元的容器,其结构的多样性、借助石墨烯平台实现组装状态的可调变性为其在表面增强拉曼
从20世纪20年代首次提出乡村建设到2018年国家提出的“美丽乡村”经过了将近一个世纪,乡村建设依旧是一个热门话题。传承是乡村建设的“第一步”乡村建设的“真意义”在于活
目的:对比分析用雷贝拉唑与奥美拉唑治疗幽门螺杆菌呈阳性的消化性溃疡的效果。方法:对我院收治的98例Hp为阳性的消化性溃疡患者的临床资料进行回顾性分析,将其分为A、B两组
剖宫产术后镇痛通常主要采用进口PCA装置,价格昂贵.近几年来我院开展了术后保留硬膜外导管分次给药法,效果较好,现报告如下.一般资料本组共106例,年龄22~35岁;身体状况较好,心
在介绍遗传算法的功能和特性的基础上,进行了电力负荷预测时段划分实例仿真,通过与K均值算法的对比,验证了该方法对进行电力负荷预测时段划分是比较有效的。