论文部分内容阅读
近年来,以深度学习为代表的人工智能技术在语义搜索、自动驾驶、智能问答、机器翻译等领域的应用取得了巨大进步,极大地促进了机器智能化水平的提升。事实上,机器智能实现的背后依赖的正是知识图谱技术。知识图谱作为大数据时代下知识组织的重要方式之一,以结构化的形式描述客观世界中的概念、实体及其之间的复杂关系,为互联网上海量、异构、动态的大数据的组织、管理、理解和利用,提供了一种有效的方式。自2012年Google提出知识图谱以来,国内外互联网搜索引擎公司,如美国的微软必应、中国的百度和搜狗等,也纷纷宣布了各自的“知识图谱”产品。知识图谱迅速发展成为人工智能领域的研究热点,引起了学术界和工业界的高度关注。与此同时,随着深度学习、类脑科学等研究领域的不断发展,知识图谱将成为未来智能机器的大脑。本文针对知识图谱中的知识表示、知识抽取和知识融合三大核心技术进行了深入研究。具体研究内容如下。
首先,针对客观世界的知识在计算机中如何表示和处理的问题,基于翻译操作提出一种利用关系相关性的知识表示模型。本文指出了现有的代表性知识表示模型在学习关系的向量表示过程中存在的问题,即关系被独立地映射到向量空间而忽略了它们之间内在的关联。考虑到不同关系可能会链接到同一实体,如知识三元组(Steve Jobs,PlaceOfBrith,California)和(Apple Inc.,Location,California)共用California作为尾实体,因此关系PlaceOfBrith和Location之间应存在着某些相关因素。对现有知识表示模型学得的关系表示矩阵分析,验证了关系间相关性的存在,并在关系表示矩阵上以低秩特征形式呈现。基于关系间相关性提出了一种新的知识表示模型,采用矩阵分解方法把关系表示矩阵分解为两个低维矩阵,从而显式地刻画其上的低秩特征。通过这种方式把关系表示矩阵的学习转化为对两个低维矩阵的学习,在知识表示的学习过程中能够有效地捕捉关系间的相关性特征。在公开的数据集上通过标准的知识表示评测任务,验证了所提模型的有效性。
其次,提出了一种词级的注意力机制卷积神经网络模型用于实体间语义关系的抽取。本文认为句子中词信息量的大小不同,并且词信息量的大小与语义关系有关,即同一个词对于不同的语义关系来说,其信息量的大小可能不同。基于以上考虑,提出一种词级的注意力机制卷积神经网络模型,根据当前考虑的语义关系动态调整词的权重值,构造出更加精准的句子表达,有效地提升了语义关系抽取的结果。
然后,针对传统的运行在单节点上的条件随机场(conditional random fields,CRFs)算法在面向大规模文本数据实体抽取任务时遇到的问题。采用“分而治之”的思想,基于分布式计算框架Spark设计了集群环境下的CRFs并行化方案,实现一种运行在集群模式下的分布式CRFs——SparkCRF。在公开数据集上通过大量实验,验证了本文设计和实现的SparkCRF能够适用于大规模文本数据的实体抽取。
最后,提出了一种基于表示学习的知识图谱实体对齐算法。实现多源知识的融合,从顶层构建一个大规模、统一的知识图谱,能够有效地增强机器对底层数据的理解能力。针对知识融合过程中的实体对齐算法进行研究,首先在低维向量空间下,采用表示学习技术得到相应的知识表示,它蕴含了知识图谱的内在结构信息及实体属性特征。然后,将人工标注的实体对作为先验知识,学习知识图谱间实体对的映射关系。经实验验证了本文方法能够有效提高知识图谱实体对齐的精确率。
通过上述研究,本文在知识表示、知识抽取和知识融合方面分别提出了新的技术方法和思路。希望本文工作可以为知识图谱技术的发展和应用起到进一步推动作用。
首先,针对客观世界的知识在计算机中如何表示和处理的问题,基于翻译操作提出一种利用关系相关性的知识表示模型。本文指出了现有的代表性知识表示模型在学习关系的向量表示过程中存在的问题,即关系被独立地映射到向量空间而忽略了它们之间内在的关联。考虑到不同关系可能会链接到同一实体,如知识三元组(Steve Jobs,PlaceOfBrith,California)和(Apple Inc.,Location,California)共用California作为尾实体,因此关系PlaceOfBrith和Location之间应存在着某些相关因素。对现有知识表示模型学得的关系表示矩阵分析,验证了关系间相关性的存在,并在关系表示矩阵上以低秩特征形式呈现。基于关系间相关性提出了一种新的知识表示模型,采用矩阵分解方法把关系表示矩阵分解为两个低维矩阵,从而显式地刻画其上的低秩特征。通过这种方式把关系表示矩阵的学习转化为对两个低维矩阵的学习,在知识表示的学习过程中能够有效地捕捉关系间的相关性特征。在公开的数据集上通过标准的知识表示评测任务,验证了所提模型的有效性。
其次,提出了一种词级的注意力机制卷积神经网络模型用于实体间语义关系的抽取。本文认为句子中词信息量的大小不同,并且词信息量的大小与语义关系有关,即同一个词对于不同的语义关系来说,其信息量的大小可能不同。基于以上考虑,提出一种词级的注意力机制卷积神经网络模型,根据当前考虑的语义关系动态调整词的权重值,构造出更加精准的句子表达,有效地提升了语义关系抽取的结果。
然后,针对传统的运行在单节点上的条件随机场(conditional random fields,CRFs)算法在面向大规模文本数据实体抽取任务时遇到的问题。采用“分而治之”的思想,基于分布式计算框架Spark设计了集群环境下的CRFs并行化方案,实现一种运行在集群模式下的分布式CRFs——SparkCRF。在公开数据集上通过大量实验,验证了本文设计和实现的SparkCRF能够适用于大规模文本数据的实体抽取。
最后,提出了一种基于表示学习的知识图谱实体对齐算法。实现多源知识的融合,从顶层构建一个大规模、统一的知识图谱,能够有效地增强机器对底层数据的理解能力。针对知识融合过程中的实体对齐算法进行研究,首先在低维向量空间下,采用表示学习技术得到相应的知识表示,它蕴含了知识图谱的内在结构信息及实体属性特征。然后,将人工标注的实体对作为先验知识,学习知识图谱间实体对的映射关系。经实验验证了本文方法能够有效提高知识图谱实体对齐的精确率。
通过上述研究,本文在知识表示、知识抽取和知识融合方面分别提出了新的技术方法和思路。希望本文工作可以为知识图谱技术的发展和应用起到进一步推动作用。