论文部分内容阅读
开发一种治疗疾病的新药是一种非常漫长和昂贵的过程,为已知药物确定新的疾病适应症,即药物重定位,有助于减少药物的研发成本。目前,大多预测药物相关疾病的方法都是综合利用与药物和疾病相关的数据。然而这些方法虽然聚焦在整合多种药物特征,并没有考虑到各种特征间的多样性。此外这些方法尽管利用了药物和疾病相关的各种数据,但是它们都是根据浅层模型提出的,很难挖掘出药物和疾病之间复杂的关联关系。这些不足将在一定程度上影响预测方法的型性能。本文提出三种药物-疾病关联预测方法,第一种是基于传统网络表征学习(非负矩阵分解)的关联预测方法;第二种和第三种是基于深度学习的方法。
(1)基于非负矩阵分解的关联预测方法(DivePred)
在这部分研究中,提出了一种基于传统网络表征学习(非负矩阵分解)方法,DivePred,来预测药物相关疾病。DivePred整合了疾病相似性、药物-疾病关联以及药物的多种特征包括药物化学结构特征、药物目标域特征、药物目标注释特征以及与药物相关的疾病特征。原始药物特征具有稀疏性以及较高的维度,DivePred基于非负矩阵分解将药物特征投影到低维特征空间,取得药物稠密的特征表示。由于不同的药物特征从不同的角度体现药物的本质,因此DivePred使用一个优化项,增强了多样性且减少了多种药物特征的冗余性。此外,DivePred通过拉普拉斯结合邻居信息以提高算法的性能。实验结果证明,DivePred优于其它几个较好的药物-疾病关联预测方法。
(2)基于多路卷积神经网络的药物-疾病关联预测方法(CAPred)
原始信息特征基于非负矩阵分解从而达到特征的降维,并通过迭代拟合获得特征信息。这种传统的表征由于很难能捕捉到药物与疾病之间多种复杂的、非线性的连接关系。因此,在这部分提出深度的网络表征学习以及药物疾病关联预测方法(CAPred)。首先根据四种药物相似性构建了四个不同角度的药物相似性网络,并结合疾病相似性和药物-疾病关联信息构建了四个药物-疾病异构网络。基于药物和疾病相关的各种生物学前提,从生物学角度构建了四种药物-疾病节点对嵌入矩阵。设计了基于卷积神经网络的框架从四个不同的药物-疾病嵌入矩阵中捕获了不同的结点对深层特征表示。此外,由于多个来源的特征对预测结果的贡献不同,这部分提出使用注意力机制来区分不同特征的贡献。对比结果显示,CAPred预测性能优于其它的几种预测方法。
(3)基于全连接自动编码器和卷积神经网络的关联预测方法(ANPred)
ANPred从药物和疾病的相似性以及关联数据中学习和整合节点对属性信息以及邻居拓扑信息。设计了基于多层卷积神经网络的学习框架,用于从药物和疾病的相关数据中学习一对药物和疾病节点的属性表示。为了捕获节点的邻居拓扑结构,建立了随机游走策略来形成邻居节点序列。基于全连接自动编码和skip-gram的框架被开发来学习节点的邻居拓扑表示。交叉验证结果以及五种药物的案例表明了ANPred不仅优于几种新进的方法,更有能力发现潜在的候选疾病。
(1)基于非负矩阵分解的关联预测方法(DivePred)
在这部分研究中,提出了一种基于传统网络表征学习(非负矩阵分解)方法,DivePred,来预测药物相关疾病。DivePred整合了疾病相似性、药物-疾病关联以及药物的多种特征包括药物化学结构特征、药物目标域特征、药物目标注释特征以及与药物相关的疾病特征。原始药物特征具有稀疏性以及较高的维度,DivePred基于非负矩阵分解将药物特征投影到低维特征空间,取得药物稠密的特征表示。由于不同的药物特征从不同的角度体现药物的本质,因此DivePred使用一个优化项,增强了多样性且减少了多种药物特征的冗余性。此外,DivePred通过拉普拉斯结合邻居信息以提高算法的性能。实验结果证明,DivePred优于其它几个较好的药物-疾病关联预测方法。
(2)基于多路卷积神经网络的药物-疾病关联预测方法(CAPred)
原始信息特征基于非负矩阵分解从而达到特征的降维,并通过迭代拟合获得特征信息。这种传统的表征由于很难能捕捉到药物与疾病之间多种复杂的、非线性的连接关系。因此,在这部分提出深度的网络表征学习以及药物疾病关联预测方法(CAPred)。首先根据四种药物相似性构建了四个不同角度的药物相似性网络,并结合疾病相似性和药物-疾病关联信息构建了四个药物-疾病异构网络。基于药物和疾病相关的各种生物学前提,从生物学角度构建了四种药物-疾病节点对嵌入矩阵。设计了基于卷积神经网络的框架从四个不同的药物-疾病嵌入矩阵中捕获了不同的结点对深层特征表示。此外,由于多个来源的特征对预测结果的贡献不同,这部分提出使用注意力机制来区分不同特征的贡献。对比结果显示,CAPred预测性能优于其它的几种预测方法。
(3)基于全连接自动编码器和卷积神经网络的关联预测方法(ANPred)
ANPred从药物和疾病的相似性以及关联数据中学习和整合节点对属性信息以及邻居拓扑信息。设计了基于多层卷积神经网络的学习框架,用于从药物和疾病的相关数据中学习一对药物和疾病节点的属性表示。为了捕获节点的邻居拓扑结构,建立了随机游走策略来形成邻居节点序列。基于全连接自动编码和skip-gram的框架被开发来学习节点的邻居拓扑表示。交叉验证结果以及五种药物的案例表明了ANPred不仅优于几种新进的方法,更有能力发现潜在的候选疾病。