论文部分内容阅读
细胞穿膜肽是一种能够轻易穿过细胞膜,可以携带多种分子物质进入细胞内的短肽序列。具有靶向功能的细胞穿膜肽序列能够高效率的将药物分子投入靶细胞内部。因此,从多肽序列中有效的识别出细胞穿膜肽序列以及针对穿膜肽的功能开展相关研究是一类重要的生物信息学问题。而该类问题的核心在于提出有效的序列特征表达方法。本文主要工作是提出一种广义二肽组成(GDipC)的特征表达方法,并与当前常用特征表达方法进行有效融合,运用线性判别分析生成低维的结构特征,并建立多分类器预测模型。研究具体包括以下四个方面。(1).构建了两个高质量的基准数据集。鉴于当前针对细胞穿膜肽序列的研究中,高质量的数据集缺乏,序列样本量较少等因素。本文构建了两个基于穿膜肽识别及运载物质功能判定问题为背景的基准数据集。(2).通过分析细胞穿膜肽的序列信息,本文提出了一种基于短肽序列特征提取方法:广义二肽组成(GDipC),该方法是在二肽组成特征表达的基础上改进顺序序列中二联体残基对组成的定义而得到的。广义二肽组成运用到短肽序列的特征提取阶段,相较于目前常用的氨基酸组成,二肽组成,三肽组成等特征提取方法有更好的表现。并且,本文在GDipC表达方法的基础上又提出了基于序列分段的融合特征表达方法,进一步平衡了不同特征表达方法针对特征差异的偏重。(3).针对待识别特征矩阵维度较高且特征稀疏等特点,本文引入线性判别分析来发掘其低维度特征,并讨论了穿膜肽序列特征低维度空间的选择。(4).针对细胞穿膜肽的识别及其相关功能性预测背景中的分类问题,本文使用三种分类算法(K近邻算法,径向基核的支持向量机,XGBoost提升树)并建立五折交叉验证模型,引入可靠的评价指标。实验表明,本文提出的预测模型具有良好的鲁棒性。