论文部分内容阅读
创新药物靶点发现是新药研发的关键和难点,通过蛋白质功能分类研究,可以深入理解靶点蛋白特征,为加快靶点发现研究提供助力。蛋白质功能分类的前提是对蛋白质功能进行注释,随着多种组学技术的发展,蛋白质序列大量累积,传统的通过实验注释蛋白质功能的方法已无法弥补已注释功能的蛋白数量和未注释功能的蛋白数量之间越来越大的鸿沟。基于计算的蛋白质功能预测是解决这一问题的有效途径,近年来已经成为蛋白质功能注释领域不可或缺的方法。然而,传统的计算方法存在准确性不高、预测结果假阳性率高等缺点。深度学习是一种最有前途的人工智能算法,在医学诊断、基因组学数据分析、药物设计等领域已经取得了巨大的成功。利用深度学习技术充分提取蛋白质特征,构建准确稳定的功能预测模型或许可以解决传统计算方法存在的不足。本文基于深度学习技术对蛋白质功能预测做了如下探究:首先,基于卷积神经网络(CNN)结合一种蛋白质二进制编码表示策略构建了蛋白质功能预测模型。本文收集了20个GO家族蛋白,并针对每个家族构建了两类数据集。然后,该模型的性能在每个家族的两类数据集上与BLAST、HMMER、支持向量机(SVM)、概率神经网络(PNN)和k-近邻模型(KNN)等方法进行了对比评估。第一类数据集是建模训练集和独立测试集之间具有最高相似性的数据,CNN、SVM、PNN和KNN四种方法在这类数据集上的表现均较好,且各方法在各个指标上的表现相互之间几乎没有显著性差异,说明第一类数据集用于评估各方法性能没有区分度。第二类数据集是建模训练集和独立测试集之间具有最低相似性的数据,CNN在20个GO家族上的预测准确率在66%~98%之间,均好于SVM、PNN和KNN三种机器学习方法,且其特异性(SP)在87%~100%之间,在假阳性控制上也达到了比这三种机器学习方法更好的表现。为了进一步评价CNN模型在真实世界中的假阳性率,本研究将其用于预测人类基因组编码的所有蛋白,并根据预测结果计算富集因子(EF),结果发现CNN在20个家族上的EF值都在2以上,显著高于BLAST、SVM、PNN和KNN,在绝大多数GO家族上的表现好于HMMER。这进一步证明了本研究所构建的CNN模型具有很好的假阳性控制率。其次,本研究将所建立的模型进一步运用于细菌IV型分泌系统效应蛋白(T4SE)的注释。T4SE是一种在细菌入侵过程中发挥着至关重要作用的因子,理解其作用的分子机制,刻画其特征对于药物靶点发现、抑制细菌IV型分泌系统和细菌抗药性研究具有重大意义。要做到这些首先要对其进行识别注释,目前的T4SE预测方法还存在假阳性率高等缺点。因此,本文收集了来自于同一类型研究的T4SE和非T4SE数据,并对蛋白质特征表示方法进行了较为系统的探究,基于各种特征分别建立了T4SE的CNN预测模型。通过采用与Bastion4方法完全相同的建模数据集进行评估,基于蛋白质二级结构与溶剂可及性特征、位置特异性评分矩阵和序列One-hot编码技术三种方式建立的模型在预测独立测试集时达到了最好的表现(准确率分别为95.6%,98.9%,96.7%),并且与Bastion4相比较,达到相当甚至更高的表现。通过预测细菌基因组蛋白的结果评估,表明上述三种方法在控制假阳性率上与Bastion4,T4SEpre_bpbAac,T4SEpre_Joint和T4SEpre_psAac等方法相比也具有最好的表现(扫描基因组的EF值分别为6.72,6.84,6.44)。进一步,为了更全面的考虑蛋白质特征,提高预测结果的可靠性,本研究基于三种方法预测结果投票方式建立了T4SE注释工具CNN-T4SE,其在预测非T4SE数据上的假阳性率也达到了最好的表现。本文基于卷积神经网络构建了蛋白质功能预测模型和细菌IV型分泌系统效应蛋白识别模型,相比于BLAST,HMMER,SVM,PNN,KNN,Bastion4,T4SEpre_bpbAac,T4SEpre_Joint和T4SEpre_psAac等方法,模型性能得到了改进与提升,有望对蛋白功能研究领域提供参考。另外,本文所做的蛋白质功能预测是药物靶点发现前期相关研究,在未来工作中,可将该方法应用于靶点蛋白预测研究,深入刻画药物靶点特征,为提高靶点发现效率做出助力。