论文部分内容阅读
冷胁迫对生物的生长和生活有着极度严重的影响,尤其是对植物来说。对植物的冷胁迫调节机制的研究,对相关的生物技术研究以及提高农作物产量等都有重要意义。当前,对植物冷胁迫蛋白的识别主要依靠人工进行,这种方式费时费力。截止目前,通过前期的资料整理,对整个拟南芥的蛋白数据库进行统计,已发现的与冷胁迫相关的蛋白仅有594条。所以,利用机器学习的方法,通过对已有的数据进行训练和预测,以为生物实验提供数据支持,具有一定的意义和研究价值。在本课题中,仅仅有正例的数据以及拟南芥的全部蛋白质序列,其中在后者中包含很多的未发现的冷胁迫蛋白序列。所以,这里首先考虑了PU Learning方法,从理论上来讲PU Learning是最合适的方法之一。将除正例数据之外的蛋白序列作为未标记的数据。尝试了PUCPI和LibD3C两种当前比较常用的PU Learning算法,但结果仅在50%上下。之后开始采用常用的分类算法进行尝试,将之前的未标记数据作为负例数据处理,并在LibSVM中得到了较好的结果。除了对分类算法的尝试,实验中还尝试了多种特征提取方法,如Pse-One、K-SkipN-Gram、Information Theory等,以及对多种特征提取方法的组合。此时,分类的准确率提高到了80%以上。在最后,一个新的负例集合被构造出来(这样可以有效的降低负例集中包含的未发现的冷胁迫蛋白的数量),并把分类准确率提高到了85%左右,取得了较好的结果。在寻找到了一个较好的冷胁迫蛋白的预测方法后,对现有的数据进行了整理并搭建了冷胁迫蛋白数据库网站。网站采用了Maven、Spring Boot,Mybatis,Mysql、VUE等主流Java Web开发技术,主要使用Java语言进行开发。为使用者提供了对拟南芥冷胁迫蛋白进行序列浏览、全文检索(Lucence)、序列比对(Blast)与分类预测等功能。