论文部分内容阅读
化合物与蛋白质相互作用的研究,能够产生对药物设计和研发有重要提示性作用的化合物-蛋白质组合。传统的药物研发通常基于实验验证,可能会遗漏重要的候选组合,并且研发周期长、费用高、成功率低。目前,临床和动物细胞实验积累了大量化合物与蛋白质相互作用的数据,这些基础数据为发现新的组合模式提供了可能。近年来,基于深度学习的方法在很多领域都取得了突破性进展,该方法受生物神经系统信息处理的启发,能够从大量训练数据中自动分层提取特征,因此,使用该方法训练百万级别的数据集,可探索和发现新的化合物与蛋白质相互作用模式,并据此预测与特定化合物相互作用的蛋白质,从而为药物设计和研发的实验验证提供小范围、相对可靠的假设。本文的主要工作是使用TensorFlow框架构建并训练用于预测化合物和蛋白质相互作用的深度学习模型。本文的数据来源于BindingDB数据库。在本文中,将BindingDB中提取的化合物-蛋白质组合数据作为正样本,标签为1;将化合物与蛋白质序列随机组合并去除正样本后的数据作为负样本,标签为0。将正负样本混合后按照98:1:1的比例划分训练集、验证集及测试集。本文构建的深度学习模型是由循环神经网络和深度前馈神经网络组成的复合网络。本网络模型包含以下部分:第一部分是三个动态RNN特征提取网络,分别用来提取化合物中原子块、化学键块数据和蛋白质氨基酸序列数据中的特征,然后将三个特征提取网络的输出结果拼接为一个特征向量后作为第二部分网络的输入。第二部分是一个五个隐层的全连接神经网络,用于学习化合物与蛋白质之间的相互作用关系。最后一层是输出层,有2个节点,以one-hot形式表示标签。这样就将化合物与蛋白质相互作用关系的研究转化成为一个二分类问题的研究。本文从分析原始数据、确定方案、编写调试代码到训练出最终模型,整个研究过程尝试过近百种解决方案,历时两年时间。最终版模型在测试集上得到的准确率为97.32%,F1-Score值为97.39%,AUC值为99.58%。根据结果可以看出,本文使用深度学习对化合物与蛋白质相互作用的研究结果对于探索和发现新的化合物-蛋白质组合有着重要的启示作用。