基于深度学习的蛋白质功能预测及药物靶点发现研究

来源 :浙江大学 | 被引量 : 0次 | 上传用户：niuyq888

【摘要】

：

【作者】

：

洪嘉俊

【出处】

：

浙江大学

【发表日期】

：

2020年07期

【关键词】

：

药物靶点蛋白质功能预测深度学习卷积神经网络机器学习假阳性率细菌Ⅳ型分泌系统效应蛋白

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

创新药物靶点发现是新药研发的关键和难点,通过蛋白质功能分类研究,可以深入理解靶点蛋白特征,为加快靶点发现研究提供助力。蛋白质功能分类的前提是对蛋白质功能进行注释,随着多种组学技术的发展,蛋白质序列大量累积,传统的通过实验注释蛋白质功能的方法已无法弥补已注释功能的蛋白数量和未注释功能的蛋白数量之间越来越大的鸿沟。基于计算的蛋白质功能预测是解决这一问题的有效途径,近年来已经成为蛋白质功能注释领域不可或缺的方法。然而,传统的计算方法存在准确性不高、预测结果假阳性率高等缺点。深度学习是一种最有前途的人工智能算法,在医学诊断、基因组学数据分析、药物设计等领域已经取得了巨大的成功。利用深度学习技术充分提取蛋白质特征,构建准确稳定的功能预测模型或许可以解决传统计算方法存在的不足。本文基于深度学习技术对蛋白质功能预测做了如下探究:首先,基于卷积神经网络(CNN)结合一种蛋白质二进制编码表示策略构建了蛋白质功能预测模型。本文收集了20个GO家族蛋白,并针对每个家族构建了两类数据集。然后,该模型的性能在每个家族的两类数据集上与BLAST、HMMER、支持向量机(SVM)、概率神经网络(PNN)和k-近邻模型(KNN)等方法进行了对比评估。第一类数据集是建模训练集和独立测试集之间具有最高相似性的数据,CNN、SVM、PNN和KNN四种方法在这类数据集上的表现均较好,且各方法在各个指标上的表现相互之间几乎没有显著性差异,说明第一类数据集用于评估各方法性能没有区分度。第二类数据集是建模训练集和独立测试集之间具有最低相似性的数据,CNN在20个GO家族上的预测准确率在66%~98%之间,均好于SVM、PNN和KNN三种机器学习方法,且其特异性(SP)在87%~100%之间,在假阳性控制上也达到了比这三种机器学习方法更好的表现。为了进一步评价CNN模型在真实世界中的假阳性率,本研究将其用于预测人类基因组编码的所有蛋白,并根据预测结果计算富集因子(EF),结果发现CNN在20个家族上的EF值都在2以上,显著高于BLAST、SVM、PNN和KNN,在绝大多数GO家族上的表现好于HMMER。这进一步证明了本研究所构建的CNN模型具有很好的假阳性控制率。其次,本研究将所建立的模型进一步运用于细菌IV型分泌系统效应蛋白(T4SE)的注释。T4SE是一种在细菌入侵过程中发挥着至关重要作用的因子,理解其作用的分子机制,刻画其特征对于药物靶点发现、抑制细菌IV型分泌系统和细菌抗药性研究具有重大意义。要做到这些首先要对其进行识别注释,目前的T4SE预测方法还存在假阳性率高等缺点。因此,本文收集了来自于同一类型研究的T4SE和非T4SE数据,并对蛋白质特征表示方法进行了较为系统的探究,基于各种特征分别建立了T4SE的CNN预测模型。通过采用与Bastion4方法完全相同的建模数据集进行评估,基于蛋白质二级结构与溶剂可及性特征、位置特异性评分矩阵和序列One-hot编码技术三种方式建立的模型在预测独立测试集时达到了最好的表现(准确率分别为95.6%,98.9%,96.7%),并且与Bastion4相比较,达到相当甚至更高的表现。通过预测细菌基因组蛋白的结果评估,表明上述三种方法在控制假阳性率上与Bastion4,T4SEpre_bpbAac,T4SEpre_Joint和T4SEpre_psAac等方法相比也具有最好的表现(扫描基因组的EF值分别为6.72,6.84,6.44)。进一步,为了更全面的考虑蛋白质特征,提高预测结果的可靠性,本研究基于三种方法预测结果投票方式建立了T4SE注释工具CNN-T4SE,其在预测非T4SE数据上的假阳性率也达到了最好的表现。本文基于卷积神经网络构建了蛋白质功能预测模型和细菌IV型分泌系统效应蛋白识别模型,相比于BLAST,HMMER,SVM,PNN,KNN,Bastion4,T4SEpre_bpbAac,T4SEpre_Joint和T4SEpre_psAac等方法,模型性能得到了改进与提升,有望对蛋白功能研究领域提供参考。另外,本文所做的蛋白质功能预测是药物靶点发现前期相关研究,在未来工作中,可将该方法应用于靶点蛋白预测研究,深入刻画药物靶点特征,为提高靶点发现效率做出助力。

其他文献

NiCuZn铁氧体自旋玻璃、磁热效应和临界行为的研究

当今世界逐渐把能源效率及其可持续性作为研究的主题,对高效率、无污染、高能量和小型化等特征的材料和器件的需求也在逐渐增加。NiCuZn铁氧体由于其低成本、低损耗和居里温度范围广等优异特性吸引了大量的关注。本文采用固相反应法制备了尖晶石型铁氧体Nix Cu0.2Zn0.8-xFe2O4(0≤x≤0.28),研究了其结构、形貌、低温下的自旋玻璃行为、相变附近的磁热效应及临界行为,并且探索了Ni2+取代Z

学位

NiCuZn铁氧体自旋玻璃磁热效应临界行为

超声在Stanford B型胸主动脉瘤颈外—椎动脉旁路重建术后的应用

1资料与方法1.1病人资料 10例患者,术前均经MRA确诊,为胸主动脉瘤(Stanford B)型.手术位于DSA室,行全麻.取左锁骨上横切口,显路颈外动脉,到右侧大隐静脉搏长约15cm,远心端与

期刊

超声检查腔内隔绝术STANDFORDB型胸主动脉瘤颈外-椎动脉旁路重建术

植物多糖清除羟自由基作用的研究

研究当归、黄芪、鬼臼和猫人参的多糖对羟自由基的清除作用.采用分光光度法测定羟自由基清除率,并计算出半数清除率(IC50).当归多糖、黄芪多糖、鬼臼多糖对羟自由基的IC50分

期刊

羟自由基多糖活性成分

湖南省H农商行小微企业贷款业务绩效研究

小微企业是我国国民经济增长的驱动器,不断强化小微企业金融服务有着积极的现实意义。由于我国小微企业经营规模小、风险高,而商业银行在利润最大化的驱动下,使小微企业长期受到金融排斥。农商行成立的初衷是服务“三农”、区域中小微企业发展,加上农商行强劲的区域地缘优势,这也为农商行发展小微企业贷款业务提供契机。虽然目前农商行开展的小微企业信贷业务取得一定成果,但是小微企业先天性条件不足以及农商行风控制度不健全

学位

农商行小微企业贷款绩效熵权法层次分析法

官地矿选煤厂煤场封闭工程效益分析与研究

官地矿选煤厂针对露天煤场煤尘污染严重、处理能力不足等问题,建立了封闭式煤场储存系统,不仅有效解决了环境污染问题,而且降低了煤炭流失量,提高了煤炭质量,取得了显著的经

期刊

选煤厂封闭煤场煤尘露天煤场coal preparation plantenclosed coal stock pilecoal dustopen-air

基于深度学习的蛋白质功能预测及药物靶点发现研究

其他学术论文