论文部分内容阅读
抗菌肽(antimicrobial peptide, AMP)是由20-50多个氨基酸残基组成的、具抗微生物活性的肽类的总称,现已在细菌、真菌、昆虫等中分离、纯化到上千种抗菌肽。抗菌肽具分子质量小、热稳定性好、抗菌谱广甚至抗病毒及抗肿瘤的特点,作用机理迥异于传统抗生素不易产生耐药性。因其在农业(抗病转基因植物)和药用(克服日益严重的抗生素耐药问题、开发新型抗病毒及抗肿瘤药物)等领域的广泛应用前景,抗菌肽受到国内外的极大关注。但与传统抗生素相比,多数抗菌肽的抗菌活性还不够理想因而用量较大成本较高。多肽和蛋白质的空间结构与功能由其一级结构(氨基酸序列)决定,高级结构甚难测定而一级结构简便易得。因此,用定量序效模型(Quantitative Sequence-Activity Model,QSAM)取代定量构效关系(Quantitative Structure-Activity Relationship,QSAR),有目的地改造已有抗菌肽、设计新抗菌肽分子意义重大。假定欲设计的抗菌肽长为30个氨基酸残基,则理论上共有2030种可能(不含非天然氨基酸),显然不可能全部合成再生物测定验证。抗菌肽QSAM的最终目的就是从已有的少量实验数据出发,建模预测出少量高活性(仅仅是预测)的多肽,合成后生测验证;因此QSAM模型独立预测准确性决定成败。 多肽QSAM涉及三个关键环节:描述符的获取,描述符的选择,回归模型的选择。由于描述子与多肽活性间的复杂非线性关系,传统的多元线性回归、偏最小二乘回归等线性模型解析能力有限;基于结构风险最小的支持向量机(Support Vector Machine, SVM)以统计学习理论为基础,较好地解决了局部最小、过学习、非线性等问题,泛化能力优异。因此,本文采用SVM为基本建模工具。无关、冗余描述符会影响模型预测精度,描述符选择与回归模型选择常常藕联,在QSAM中逐步线性回归模型线性筛选描述符效果不佳。本实验室前期基于支持向量回归(Support Vector Regression, SVR)发展了一种非线性变量精细筛选方法-多轮末尾淘汰法,每轮依均方误差(Mean Squared Error, MSE)最小原则非线性地筛去一个最差的描述符。但当描述符个数很大时,多轮末尾淘汰法极为耗时。进一步,本实验室前期基于SVR发展了高维变量快速非线性筛选法,较好地解决了这一问题。因此,本文的重点是描述符的获取,即多肽结构的表征。 本文针对传统氨基酸描述子Z-scales、ISA-ECI、MS-WHIM scores等不能表征肽序列的上下文关联(而上下文关联对肽的活性影响很大)、稳定性欠佳等缺陷,将多肽中的各氨基酸残基整体考虑,构建了两种新的多肽结构描述子GS-AA531和GS-AA531-MSCC。氨基酸残基指数数据库中每一残基有531种理化性质值(AA531),对等长(假定为n)的肽体系,每条肽用AA531串联表征可得n×531个描述子。GS-AA531是基于地统计学(Geostatistics, GS)半变异函数得到的反映序列关联特征的描述子,一个长为n的多肽,每种性质可用(n-1)个半方差表征,共有(n-1)×531个描述子。多尺度组分与关联(Multi-scale Component and Correlation, MSCC)反映序列在多个尺度上的残基组成、在多个尺度上的残基关联特征,GS-AA531-MSCC是GS-AA531与MSCC的综合。 对肥大细胞脱粒抗菌肽类似物数据集(25条抗菌肽、每肽14个残基),依次采用AA531、GS-AA531和GS-AA531-MSCC表征多肽结构,每条抗菌肽获得7434、6903、7372个描述子,高维特征非线性快速筛选后获得45、15、16个描述子,多轮末尾淘汰精细筛选后最终获得20、12、11个保留描述子用于建模,SVR模型拟合(内部)决定系数R2分别为0.959、0.997、0.995,独立预测(外部)Qext2,分别为0.357、0.693、0.620。GS-AA531和GS-AA531-MSCC表征明显优于AA531表征。 对CameL-s抗菌肽数据集(101条抗菌肽、每肽15个残基),依次采用GS-AA531和GS-AA531-MSCC表征多肽结构,每条抗菌肽获得7434、7910个描述子,高维特征非线性快速筛选后获得22、18个描述子,多轮末尾淘汰精细筛选后最终获得17、13个保留描述子用于建模,SVR模型拟合R2分别为0.717、0.726,独立预测Qext2,分别为0.716、0.708。GS-AA531和GS-AA531-MSCC表征的SVR模型明显优于参比文献报道模型。 两个抗菌肽数据体系QSAM研究表明,GS-AA531和GS-AA531-MSCC是两种新的有效的多肽结构表征方法,且GS-AA531表征更为稳健。GS-AA531表征结合高维特征非线性快速筛选、多轮末尾淘汰精细筛选在多肽QSAM中有较大应用前景。