论文部分内容阅读
传统互联网的组成形式是由文档(网页)及其文档之间的关联(超链接)组成,这种组织形式并不能被机器所理解。知识图谱作为一种用实体及其语义关系来表达知识的语义网络,通过将实体及其关系利用图的方式进行表达,使得机器可以很容易的读取其中的语义逻辑关系,知识的表达也更为简单。为此,知识图谱的研究受到越来越多的关注。 由于知识图谱具有丰富的语义信息,目前对于知识图谱的需求越来越大,这也使得知识图谱的自动构建成为了一个研究热点。目前主流的图谱自动构建算法包括利用社区资源构建和利用非结构化文本进行构建。尽管这两种方法已经取得比较不错的效果,但是每种方法均存在很多可以改善的空间。如果可以对于其中的关键算法和环节做一些改进,会在一定程度上提升知识图谱自动构建的效果,这对于知识图谱的研究具有重要意义。 基于上述原因,本文的主要研究内容如下: (1)针对基于社区资源构建方法得到的图谱不完整的缺点,目前主流的方法是通过表示学习得到图谱中实体和关系的分布式表示,进而进行图谱补全工作。本文主要针对目前表示学习方法对于实体描述信息这一文本信息利用不完全的缺点,通过注意力机制将具有某一关系的两个实体的描述信息同时进行考虑,提出了基于三元组的文本表示方法。 (2)在上述(1)的基础上,本文通过设计多种神经网络结构来实现基于三元组的文本表示方法,进而提出了一种基于实体描述信息的表示学习模型。通过在公共数据集FB15K中对图谱补全的两个经典任务的实验结果表明,改进后的表示学习模型相比于几个基准模型在MR和P@10指标上均有一定程度的提升。 (3)尽管非结构化文本构建方法在通用领域取得了不错的效果,但是由于缺乏初始本体或知识库,该方法在专业领域难以开展。针对这一问题,论文引入叙词表这一多数领域都存在的资源,利用叙词表自身的结构,通过两个假设,从叙词表的结构中提炼出实体类型和关系类型。 (4)在上述(3)的基础上,论文设计了一种基于叙词表的自动生成高质量种子的方法,使得Bootstrapping方法可以应用在这些领域。最后,通过两个完全不同的行业领域进行实验验证,结果表明该方法取得了同人工设计种子比较接近的平均准确率。与此同时,论文也阐述了叙词表的通用性,这一模型同样适合其他的行业领域。