基于有效特征探索和集成学习模型的赖氨酸丙二酰化位点分析与预测

来源 :桂林电子科技大学 | 被引量 : 1次 | 上传用户:tangwu2007
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
翻译后修饰是对蛋白质中的一个或多个氨基酸添加官能团(如烷基、烯基、苯基等)改变其化学性质或者空间结构,从而进一步影响蛋白质在细胞生命活动过程的调控作用。在众多的蛋白质翻译后修饰中,赖氨酸丙二酰化是将丙二酰基团从丙二酰辅酶A转移到赖氨酸残基上的一种化学修饰。研究证明,这一修饰能调控肝脏组织中葡萄糖和脂肪酸的代谢,并且与二型糖尿病和肥胖症等高发病率的代谢疾病相关。因此,对赖氨酸丙二酰化位点的精准识别能有助于人们深入了解相关疾病的发病机理以及治疗方法。本文基于实验验证的真实数据,提出了一个用于精准预测赖氨酸丙二酰化位点的集成学习框架,主要工作与结论如下:(1)赖氨酸丙二酰化数据集的收集与预处理。首先,我们从公共数据库中收集实验验证过的丙二酰化修饰的蛋白质序列。然后,以赖氨酸(K)为中心截取长度为25个氨基酸的残基序列,若中心赖氨酸(K)被丙二酰化则定义为正样本,否则定义为负样本,以此构建用于机器学习建模的高质量的赖氨酸丙二酰化位点数据集。此外,通过序列比对的方式探究了正负样本序列的差异性,并发现正负样本之间存在大量的区域性重叠。基于序列的全方位特征探索,找寻正负样本之间潜在的差异性,为构建高精度的预测模型奠定坚实的基础。(2)赖氨酸丙二酰化残基序列的特征提取与特征选择。为了从赖氨酸丙二酰化位点的残基序列中提取关键模式和特征,我们分析和比较了11种不同的特征编码方法,总计生成了2275维原始特征向量。通过使用信息增益特征选择算法为原始特征进行特征重要性排序,并使用随机森林模型基于十次十折交叉验证探寻各个数据集上对应的最优特征集。(3)集成学习模型的构建。本文基于四种常见的机器学习方法(即随机森林、支持向量机、K-近邻和逻辑回归)以及最近提出的一种基于梯度提升决策树的算法(LightGBM)对三个物种的数据(大肠杆菌、小鼠、人类)使用最优特征集进行训练,构建了多个单一机器学习模型。通过研究发现对单一机器学习方法模型的集成可以进一步提高模型鲁棒性和预测精度。最终在独立测试集上与现有的最先进的预测器(MaloPred)相比,优化的集成模型在各个物种数据集上的性能全面领先(大肠杆菌、小鼠和人类的AUC的值分别为0.930,0.923,0.944)。(4)在线预测服务器的开发。基于此集成模型,我们利用Gearman任务分发框架开发了一个高并发、负载均衡的赖氨酸丙二酰化位点在线预测服务器(http://kmalsp.erc.monash.edu/),为广泛的研究团体提供赖氨酸丙二酰化位点的初筛服务。本论文的研究和提出的集成学习模型方法有助于缩短新型丙二酰化位点实验验证的周期,加速发现新的丙二酰化和其它翻译后修饰位点,为未来相关翻译后修饰位点的预测计算方法提供新思路。
其他文献
多溴二苯醚(PBDEs)与多氯联苯(PCBs)是两类含卤素(Br、Cl)的持久性有机污染物(POPs),对人体有潜在的毒害作用。城市是PBDEs和PCBs的污染源区。上海市是我国最大的工业城市,各类以PBDE
强震下液化侧扩流场地基础设计是工程设计关注的重点,也是设计难点。由于桩基可以抵抗土体侧向大变形对桩产生的侧向荷载,具有良好的抗震性能,而成为液化与液化侧扩流场地中
针对青年亚文化对大学生社会实践产生的负面影响,从加强第二课堂的指导力度和效度,建立长效的暑期社会实践管理体制,合理评价实践成果,充分发挥集体的智慧和力量等方面入手,
<正>黑龙江省农信社改革取得的成效黑龙江省农信社改革试点工作正式启动以来,取得了积极进展和明显成效。2007年,黑龙江农村信用社改革试点取得实质性进展,全省79家县级联社
针对风力机叶片疲劳损伤过程难以定量评价的问题,提出一种基于裂纹扩展AE信号分形特征的疲劳损伤模糊评价方法。首先用修正系数μ改进关联维数的计算式,确定32组试样所适合的
<正>现代青光眼的诊断1.眼压 2.视野 3.视乳头改变 4.视神经纤维层的改变 5.其他视野缺损分析基础知识一、解剖和青光眼视野缺损二、视野分析 1.正常视野 2.视野检查正常值 3.现代电
会议
目的为了生物转化低成本制备人参稀有皂苷,利用Aspergillus g.848菌的粗酶与市售的原人参二醇类皂苷(PPD)混合皂苷反应,制备人参稀有皂苷C-K、C-Mc、F_2单体和4种异构体的Rh2
在植物气孔发育中,不均等分裂对调控细胞的增殖和命运决定起着重要作用。虽然气孔发育中控制细胞不均等分裂和最终分化的一系列基因已经被报道,但是连接不均等分裂和细胞最终
所谓的有机烟叶就是按照一定的农业有机生产标准,在整个培养和种植过程中不适用化学合成的化肥、农药、调节剂等,遵循自然以及生态学基本原理,采取可持续策略进行的农业技术,
背景咽喉反流疾病患病人数多,在耳鼻咽喉科门诊大约占10%.胃内容物反流至咽喉,损伤咽喉粘膜,是耳鼻咽喉专科疾病的一个重要病因。但目前学界关于咽喉反流疾病的发病机制、诊