论文部分内容阅读
知识图谱作为信息时代一个十分重要的工具,已经在信息检索,知识问答,推荐系统等诸多方面扮演着愈加重要的角色。随着大数据信息时代的到来,日益增长的数据难以满足人们获取精确信息的需求,知识图谱的构建为人们提供了方便。然而大规模的知识图谱在如何存储、如何表示等方面存在着一定的困难。近年来,各种表示学习技术备受研究人员的关注,为大规模知识图谱的表示作出了一定贡献,但也仍然存在着诸多技术难题。知识图谱一般表示成三元组(实体,关系,实体)的形式,现有的方法一般将这些实体和关系通过向量的形式进行表示,充分利用词向量的特点,有效表示了知识图谱中各类知识元组。分布式表示是近年来比较高效的表示学习技术。以经典模型TransE方法为代表的翻译模型能够有效解决数据稀疏性等问题,但存在对复杂关系的表示不大理想的问题,因此研究一种更科学,更高效的表示学习方法尤为重要。本文在已有研究工作的基础上进一步改进,主要从以下两方面展开研究工作:(1)考虑到知识图谱中知识具备时效性的特点,三元组关系可能随时间改变,而近年来量子理论在机器学习等领域有着显著的应用,提出了基于量子理论的知识表示方法Q-TransX。该方法将知识制备成量子态,结合翻译模型的基本方法,利用量子的多态性解决知识图谱中知识的动态性问题,将词嵌入表示学习方法用来训练量子嵌入,实验结果验证了该方法的有效性。(2)提出基于双曲空间理论的双曲嵌入方法Hyper-TransE。该方法利用双曲空间能够很好地捕获具有层次结构的知识信息等特性,而知识图谱中的知识或是关系存在着大量的层次结构关系。结合欧式嵌入的方法进行双曲嵌入,不仅能捕获到这种层次关系,还可以大大减少嵌入的维数,解决了词向量面临的维数灾难问题,大大提升了表示学习的质量,实验证明了该方法的有效性。本文结合量子理论和双曲空间理论,分别提出了 Q-TransX方法和Hyper-TransE方法来解决知识表示学习面临的一些问题。在一些经典数据集上进行实验,我们的方法在性能指标上都有一定的提升。