论文部分内容阅读
随着互联网和信息技术的迅速发展,文本数据规模指数爆炸式增长,网络已经成为一个丰富的数据宝矿。可是大量的数据不等于大量有价值的信息,如何有效地从数据中抽取知识挖掘价值,是文本挖掘领域的重要研究问题。处理海量文本数据的一种重要方式便是从非结构化数据抽取结构化的知识,而实体链接技术正是一座连接非结构化数据和结构化知识库的桥梁。实体是客观世界中事物的抽象,在文本中通常有不同的表现形式。同时实体也是知识库中信息存储和组织的重要形式。实体链接的目标就是把非结构化文本中出现的实体指称映射到知识库中相应的实体。实体链接能促进很多其他自然语言处理任务,如知识库扩充、基于知识的问答、知识库融合等。 实体链接任务的难点在于实体指称的多样性和歧义性,同样的实体指称在不同的上下文中可以指代不同的实体,同样的实体在不同的上下文中可以有不同的实体指称,所以实体链接系统必须有效地建模和理解上下文信息。使用哪些上下文、如何表达上下文以及使用什么模型建模上下文,这些问题是实体链接任务的研究重点。 本文主要研究实体链接任务的相关技术,包括候选实体的生成和排序,词向量和实体向量的学习模型、基于句子模型的实体链接方法以及深度学习在实体链接中的应用等内容。 具体而言,本文的主要工作可以总结为如下几个方面: (1)提出基于词向量和实体向量联合学习模型的实体链接系统。采用向量形式表示词和实体,不仅可以很好地避免词袋模型引起的稀疏问题,而且能够表达一定的语义信息。本文中我们提出了一个词向量和实体向量的联合学习模型。词和实体在文本中交替出现,两者之间存在某种联系,因此在向量学习过程中,词向量和实体向量间也应该存在信息交互。我们采用双线性模型建模词向量和实体向量之间的语义交互关系。我们用学习得到的词向量和实体向量建模上下文信息,构造特征集合,输入到排序模型排序候选实体,最后选择排序得分最高的候选实体作为目标实体。实验结果表明,提出的向量学习模型能学到有效的词向量和实体向量,基于向量能很好地建模上下文信息,从而提高实体链接模型的效果。 (2)研究基于句子层面上下文信息的实体链接模型。我们认为长度足够的句子包含有效的上下文信息以得到正确的目标实体。我们利用神经网络句子模型建模上下文语句信息,基于3种不同的排序机制,计算指称和候选实体相似度。我们构造了一个数据集用于评测实体链接模型,基于实验结果经验性地探究句子模型在实体链接任务中的作用。 (3)提出一个基于神经网络的全局实体链接方法。我们首先采用卷积神经网络建模上下文文本信息,利用网络输出计算局部相似度,构造特征向量。然后我们使用一个深层前向神经网络计算实体间的相关性,并基于实体相关性计算实体一致性。最后我们结合局部相似度和实体相关性,提出一个全局的实体链接方法。实体链接任务存在实体冷启动问题,我们采用信念传播算法近似求解。每个候选实体都被赋予一个排序得分,得分最高的候选实体即为系统预测得到的目标实体。对比基线方法,我们提出的实体链接方法在两个标准数据集上取得最好的效果。 (4)提出一个实体识别链接基线方法评测系统。实体链接研究现状的困惑主要归结于三个原因:(i)实体链接任务的定义不够明确;(ii)不同的实体链接方法使用不同的评价指标在不同的数据集上进行评测;(iii)对不同的实体链接方法内部子模块之间的区别并未深究。为了解决这些问题,我们提出一个实体识别链接基线方法的评测系统以评测不同方法的性能。该系统集成了不同的匹配机制和评价指标,同时集成了实体识别链接方法和数据集。系统提出了处理数据集中实体标签不一致和实体标签失效的解决方案。系统能独立评测方法的子模块,分析不同模块的优劣以便找到瓶颈,为构建更好的实体链接方法提供参考。