论文部分内容阅读
得益于信息产生和传播的成本降低,各类信息在网络上迅速增加并且广泛传播,人们获取信息的便利性大大提高。然而,随之而来的信息爆炸问题却开始影响人们检索信息的效率,如何从互联网上海量的信息中精准地获取用户的目标信息成为了亟待解决的问题。为了解决这一问题,信息抽取技术应运而生,并在近些年获得了研究学者的广泛关注。关系抽取是信息抽取领域中的一项关键任务。现有的关系抽取方法主要依靠外部信息和背景知识来提升关系抽取的效果,忽略了实体与实体之间以及实体对与实体对之间天然存在的关联关系。这些关联关系可以有效地辅助实体之间的关系抽取任务。本文使用图的形式来表示上述关联关系,并设计了新颖的基于图的神经网络模型,采用注意力机制和图卷积等技术来捕获图中的拓扑关系,并结合关系实例中包含的上下文语义特征,实现有效的关系抽取。首先,本文提出了基于实体关联图和注意力机制的关系抽取模型(entity relational graph based attentional neural network,ERANN)。考虑到实体在语料集中的关联实体信息能辅助目标实体的关系抽取,本文提出了实体关联图的概念。依据实体之间的潜在关联关系构建的实体关联图,并通过注意力机制为实体的关联实体计算关联权重,构建关联实体特征,然后使用结合自注意力机制的双向门控循环神经网络提取句子语义特征,最后结合关联特征和句子语义特征进行关系抽取。其次,本文进一步提出了基于实体对图和图卷积的关系抽取模型(entity pair graph based neural network,EPGNN)。针对ERANN模型以独立实体为对象,导致模型丧失实体对中整体关联性的问题,本文将实体对作为节点,将公共实体作为边,构建得到实体对图代替实体关联图。鉴于关联关系在实体之间的传递性,仅仅考虑实体的一阶关联关系不够全面,而ERANN模型受限于注意力机制的特点,对多阶实体关联关系无能为力。为了克服这一不足,EPGNN模型使用多层图卷积网络捕获目标实体对的拓扑特征来表征多阶关联关系,并使用预训练语言模型BERT提取句子语义特征,最后结合实体对图拓扑特征和句子语义特征进行关系抽取。最后,本文以当前主流的关系抽取方法作为基准、在两个本领域的常用公开数据集上对提出两个模型进行了对比实验和结果分析。ERANN模型通过构建实体关联图,充分挖掘目标实体对的关联关系,在句子语义特征的基础上补充了目标实体对的全局性结构特征,取得了比现有方法更好的效果;经过实体关联图构建和特征构建方法改进后的EPGNN模型,能更有效地捕获多阶实体对拓扑特征和文本语义特征,在两个公开数据集上取得了当前最优的关系抽取效果。