基于深度学习的化合物与蛋白质相互作用关系的研究

来源 :兰州大学 | 被引量 : 1次 | 上传用户:lwangkun
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
化合物与蛋白质相互作用的研究,能够产生对药物设计和研发有重要提示性作用的化合物-蛋白质组合。传统的药物研发通常基于实验验证,可能会遗漏重要的候选组合,并且研发周期长、费用高、成功率低。目前,临床和动物细胞实验积累了大量化合物与蛋白质相互作用的数据,这些基础数据为发现新的组合模式提供了可能。近年来,基于深度学习的方法在很多领域都取得了突破性进展,该方法受生物神经系统信息处理的启发,能够从大量训练数据中自动分层提取特征,因此,使用该方法训练百万级别的数据集,可探索和发现新的化合物与蛋白质相互作用模式,并据此预测与特定化合物相互作用的蛋白质,从而为药物设计和研发的实验验证提供小范围、相对可靠的假设。本文的主要工作是使用TensorFlow框架构建并训练用于预测化合物和蛋白质相互作用的深度学习模型。本文的数据来源于BindingDB数据库。在本文中,将BindingDB中提取的化合物-蛋白质组合数据作为正样本,标签为1;将化合物与蛋白质序列随机组合并去除正样本后的数据作为负样本,标签为0。将正负样本混合后按照98:1:1的比例划分训练集、验证集及测试集。本文构建的深度学习模型是由循环神经网络和深度前馈神经网络组成的复合网络。本网络模型包含以下部分:第一部分是三个动态RNN特征提取网络,分别用来提取化合物中原子块、化学键块数据和蛋白质氨基酸序列数据中的特征,然后将三个特征提取网络的输出结果拼接为一个特征向量后作为第二部分网络的输入。第二部分是一个五个隐层的全连接神经网络,用于学习化合物与蛋白质之间的相互作用关系。最后一层是输出层,有2个节点,以one-hot形式表示标签。这样就将化合物与蛋白质相互作用关系的研究转化成为一个二分类问题的研究。本文从分析原始数据、确定方案、编写调试代码到训练出最终模型,整个研究过程尝试过近百种解决方案,历时两年时间。最终版模型在测试集上得到的准确率为97.32%,F1-Score值为97.39%,AUC值为99.58%。根据结果可以看出,本文使用深度学习对化合物与蛋白质相互作用的研究结果对于探索和发现新的化合物-蛋白质组合有着重要的启示作用。
其他文献
随着教学改革的深入,一些新型的教学模式应运而生,如"先学后教,当堂训练"模式。这种教学模式,是一种课堂教学结构,也是一种教学法。在教学《短歌行》时应用这种教学模式,能够
近十年来,我国不断拉动内需、刺激国内的消费,我国网络购物用户数量呈现出了非常迅猛的增长。互联网技术的普及、物流行业的不断规范、在线支付安全性的提高等一系列网络服务
原子光学因为激光的问世有了很大的发展,通过激光和外层电子的强耦合作用可以极大地改变原子介质的光学响应特性。本论文基于外腔式半导体激光器系统搭建了用于研究多能级铷
偏头痛既是临床常见的反复发作性的神经血管性头痛,也属于心身疾病的范畴。只用药物治疗偏头痛的效果并不理想,造成的药物滥用和药物依赖引起了人们的广泛关注。近年来,学者
双子叶植物虎耳草目(Saxifragales)下的虎耳草科(Saxifragaceae, APG Ⅲ)包括大约33属,640余种。该科中半数以上的物种是单型属,且存在大量同一物种间的间断分布状态。由于虎
一、肉羊生产与贸易趋势1.羊肉生产现状及趋势2002年世界肉类总产量为24 263.0万吨,其中,羊肉产量为1 162.3万吨,占4.8%.半个世纪以来,羊肉生产量的年均增长为2.2%,高于牛肉
中国被誉为诗的国度。先秦的《诗经》就已经拉开了中国诗歌悠久历史的序幕,在之后.漫长的岁月里,诗这种特殊的艺术形式始终在中国蓬勃发展,展现出其不竭的生命力。和其他艺术
超级电容器因为其高的功率密度,快速充放电,循环寿命长和无污染等特点引起了人们的广泛关注。同时,镍基电极材料因为其高的理论比容量、循环性能好、价格低廉等特点引起了人
在当前以扶贫工作为总基调的基础上,我国不断加强城乡居民一体化建设,进一步落实扶贫工作。对城镇居民与农村居民分层编制2008-2018年的消费价格指数显示:在价格上涨后城镇、
目的:了解我院住院病人使用质子泵抑制剂的整体情况,评价其用药合理性,分析造成不合理用药现象的原因。方法:通过电子病历系统随机抽取出2015年1月~2015年12月共236份病历进