基于自编码器的分子生成方法研究

来源 :黑龙江大学 | 被引量 : 0次 | 上传用户:my2002hhl
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,深度学习越来越多地被应用到各个领域,计算机与其他学科之间的交叉程度越来越大,而分子生成就是其中一个重要的部分。分子空间异常庞大,而已知的分子在其中不过是很小的一部分。为了发现更多潜在可用的新分子,近年来研究人员尝试利用深度学习的方法生成新分子,提出了大量的分子生成模型。
  这些分子生成模型通常要求输入与输出类型相同,即若输入是字符串则输出也是相同意义的字符串,若输入是邻接矩阵则输出也是邻接矩阵等等。为便于计算机软件等处理分子数据,我们通常会用简化分子线性输入规范(Simplified Molecular Input Line Entry Specification,SMILES)的形式来表达、存储分子,该形式将分子表示为一种字符序列。现有工作中有直接以SMILES字符串作为模型输入的,也有将分子转化为邻接矩阵等图结构作为模型输入的,但是他们大多都要求输入和输出的类型相同,而没有考虑到分子中各类特征之间的联系,如分子骨架与支链以及原子分布与分子结构。为了对此方面进行改进,我们提出三种方法通过建立输入与输出之间的联系来进行分子生成。
  首先,我们提出了一种基于序列的分子生成模型Core2Chains(Core to Chains)。我们使用SMILES来表示分子,并将分子分为两部分:分子核心和分子支链。以分子核心作为输入,分子支链为输出,将输入和输出拼接即可得到一个分子。同时,为了提高生成分子的多样性,我们在模型的隐空间中加入了高斯噪声,这样使得同一核心可以产生不同的支链。
  其次,我们提出了一种基于图结构的分子生成模型A2Str,直观上来看,分子是可以表达为一个图结构的,我们可以将原子视为节点,将化学键视为边。我们通常以邻接矩阵等形式来表达一个图中的节点以及节点间的连接情况,一般来说它可以代表一个完整的图结构,然而分子图中节点(原子)类型以及边(化学键)类型都有很多种,一个邻接矩阵难以囊括图结构的全部信息。我们可以将其分为两部分,一部分是专门表达节点类型的节点特征矩阵,另一部分是专门表达节点连接情况的邻接矩阵,将前者作为模型输入,后者作为模型输出,将两者结合即可得到一个分子图的全部信息,这样可以构建起节点与边之间的联系。
  最后,我们提出了一种基于分子指纹的分子生成模型FPVAE。分子指纹可以表示出分子中存在的子结构以及子结构之间的联系,一般以0/1位流的形式表达。显然,一个分子可以对应唯一的分子指纹,但一个分子指纹可以对应的分子是不唯一的,我们希望给定分子指纹,即我们已知一些子结构以及原子间的连通性,来推断出分子真实完整的结构。
其他文献
学位
学位
学位
学位
学位
光电跟踪伺服系统是一种使用红外或者可见光探测装置进行被动搜索的实时图像侦查设备,在民用与军事领域均发挥着巨大的作用,有着举足轻重的战略意义。为解决传统光电跟踪系统不能获取距离信息的问题,本实验室与中科院长春光机所合作开展了一款新型光电跟踪系统的研发工作。该系统基于人眼中心凹结构的仿生学原理,将一个大型的主光学平台和安装于轻质筒状结构中的次级光学系统结合起来,兼具大视场、高分辨率等特性,可以对多个远
学位
随着网络物理系统的发展,与物理系统相结合的分布式资源分配策略越来越受到重视,并取得了许多有价值的研究成果。但相关成果主要针对一阶或二阶积分器系统等多自主体系统展开,缺乏对具有更复杂动态网络的分布式资源分配问题的研究,关于实际系统中存在的不确定性因素对最优资源分配算法性能的影响的讨论也较少。因此,本文首先研究一类高阶严格反馈型不确定非线性多自主体系统的分布式资源分配问题,然后在此基础上考虑事件触发策
学位
伴随着国家政策对环保的重视,相关排放法规的要求越发严格,发展新能源汽车成为汽车行业的新方向。电动汽车作为新能源汽车的主要代表之一,受到了广泛的关注和重视。随着出行安全性和舒适性要求的逐渐提高,电动汽车ECU(Electronic Control Unit,电子控制单元)软件开发也面临着诸多挑战。中央控制单元是电动汽车重要的ECU之一,具有整车控制和远程监控功能,通过CAN(Controller A
学位
学位
学位