基于广义二肽组成特征融合表达的细胞穿膜肽预测算法研究

来源 :云南大学 | 被引量 : 0次 | 上传用户:jimmil
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
细胞穿膜肽是一种能够轻易穿过细胞膜,可以携带多种分子物质进入细胞内的短肽序列。具有靶向功能的细胞穿膜肽序列能够高效率的将药物分子投入靶细胞内部。因此,从多肽序列中有效的识别出细胞穿膜肽序列以及针对穿膜肽的功能开展相关研究是一类重要的生物信息学问题。而该类问题的核心在于提出有效的序列特征表达方法。本文主要工作是提出一种广义二肽组成(GDipC)的特征表达方法,并与当前常用特征表达方法进行有效融合,运用线性判别分析生成低维的结构特征,并建立多分类器预测模型。研究具体包括以下四个方面。(1).构建了两个高质量的基准数据集。鉴于当前针对细胞穿膜肽序列的研究中,高质量的数据集缺乏,序列样本量较少等因素。本文构建了两个基于穿膜肽识别及运载物质功能判定问题为背景的基准数据集。(2).通过分析细胞穿膜肽的序列信息,本文提出了一种基于短肽序列特征提取方法:广义二肽组成(GDipC),该方法是在二肽组成特征表达的基础上改进顺序序列中二联体残基对组成的定义而得到的。广义二肽组成运用到短肽序列的特征提取阶段,相较于目前常用的氨基酸组成,二肽组成,三肽组成等特征提取方法有更好的表现。并且,本文在GDipC表达方法的基础上又提出了基于序列分段的融合特征表达方法,进一步平衡了不同特征表达方法针对特征差异的偏重。(3).针对待识别特征矩阵维度较高且特征稀疏等特点,本文引入线性判别分析来发掘其低维度特征,并讨论了穿膜肽序列特征低维度空间的选择。(4).针对细胞穿膜肽的识别及其相关功能性预测背景中的分类问题,本文使用三种分类算法(K近邻算法,径向基核的支持向量机,XGBoost提升树)并建立五折交叉验证模型,引入可靠的评价指标。实验表明,本文提出的预测模型具有良好的鲁棒性。
其他文献
用CS高次团粒混合纤维法植被恢复技术对湖南省常吉高速公路石质边坡进行植被恢复,对绿化后土壤的营养元素及植物生长情况进行了调查。结果表明,用CS高次团粒处理后,土壤中的
学习倦怠是指学生在学习情境中出现的与学习相关的不良体验和现象,包括心理耗竭、身体耗竭、对学习冷漠、人际关系疏离、低成就感五个维度。本研究的教育人际关系是指亲子关
随着卫星导航、具有定位功能设备的广泛使用,使得移动物体轨迹能够被多个信息系统所捕获,并存入到多个数据库中。轨迹恢复即在多个数据库中将属于同一移动物体的轨迹信息甄别
煤炭能源是关系到我国国计民生的重要生产资料,对国家经济建设发挥着重要的作用。近年来煤炭市场供需比例的严重失调,价格波动的频繁发生尤其是煤价的暴涨、暴跌,严重妨碍了煤炭
目的:将骨性Ⅲ类成人患者分为高角组与均角组,进行正畸掩饰性治疗,对比治疗前后各项测量指标(包括牙、颌骨、软组织)变化,讨论各组患者掩饰治疗后的效果及两组治疗结果的差异
高中时段是人生中的重要时段,高考是个体面临人生转折的关键时期。在当下的社会背景和教育背景的大环境下,发展高中生的自主教育已经成为一种必然。而学生的自主发展教育实施的核心就是要促进学生自主管理能力的发展,其中自主时间内的自我管理能力显得尤为重要。本研究以连云港市六所四星级高中为研究背景,以连云港市六所四星级高中的300名学生为调查研究对象,结合了对老师、家长、学生的进一步访谈,通过问卷调查的方法,对