论文部分内容阅读
翻译后修饰是对蛋白质中的一个或多个氨基酸添加官能团(如烷基、烯基、苯基等)改变其化学性质或者空间结构,从而进一步影响蛋白质在细胞生命活动过程的调控作用。在众多的蛋白质翻译后修饰中,赖氨酸丙二酰化是将丙二酰基团从丙二酰辅酶A转移到赖氨酸残基上的一种化学修饰。研究证明,这一修饰能调控肝脏组织中葡萄糖和脂肪酸的代谢,并且与二型糖尿病和肥胖症等高发病率的代谢疾病相关。因此,对赖氨酸丙二酰化位点的精准识别能有助于人们深入了解相关疾病的发病机理以及治疗方法。本文基于实验验证的真实数据,提出了一个用于精准预测赖氨酸丙二酰化位点的集成学习框架,主要工作与结论如下:(1)赖氨酸丙二酰化数据集的收集与预处理。首先,我们从公共数据库中收集实验验证过的丙二酰化修饰的蛋白质序列。然后,以赖氨酸(K)为中心截取长度为25个氨基酸的残基序列,若中心赖氨酸(K)被丙二酰化则定义为正样本,否则定义为负样本,以此构建用于机器学习建模的高质量的赖氨酸丙二酰化位点数据集。此外,通过序列比对的方式探究了正负样本序列的差异性,并发现正负样本之间存在大量的区域性重叠。基于序列的全方位特征探索,找寻正负样本之间潜在的差异性,为构建高精度的预测模型奠定坚实的基础。(2)赖氨酸丙二酰化残基序列的特征提取与特征选择。为了从赖氨酸丙二酰化位点的残基序列中提取关键模式和特征,我们分析和比较了11种不同的特征编码方法,总计生成了2275维原始特征向量。通过使用信息增益特征选择算法为原始特征进行特征重要性排序,并使用随机森林模型基于十次十折交叉验证探寻各个数据集上对应的最优特征集。(3)集成学习模型的构建。本文基于四种常见的机器学习方法(即随机森林、支持向量机、K-近邻和逻辑回归)以及最近提出的一种基于梯度提升决策树的算法(LightGBM)对三个物种的数据(大肠杆菌、小鼠、人类)使用最优特征集进行训练,构建了多个单一机器学习模型。通过研究发现对单一机器学习方法模型的集成可以进一步提高模型鲁棒性和预测精度。最终在独立测试集上与现有的最先进的预测器(MaloPred)相比,优化的集成模型在各个物种数据集上的性能全面领先(大肠杆菌、小鼠和人类的AUC的值分别为0.930,0.923,0.944)。(4)在线预测服务器的开发。基于此集成模型,我们利用Gearman任务分发框架开发了一个高并发、负载均衡的赖氨酸丙二酰化位点在线预测服务器(http://kmalsp.erc.monash.edu/),为广泛的研究团体提供赖氨酸丙二酰化位点的初筛服务。本论文的研究和提出的集成学习模型方法有助于缩短新型丙二酰化位点实验验证的周期,加速发现新的丙二酰化和其它翻译后修饰位点,为未来相关翻译后修饰位点的预测计算方法提供新思路。