实体链接相关技术研究

来源 :浙江大学 | 被引量 : 0次 | 上传用户:reza777
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网和信息技术的迅速发展,文本数据规模指数爆炸式增长,网络已经成为一个丰富的数据宝矿。可是大量的数据不等于大量有价值的信息,如何有效地从数据中抽取知识挖掘价值,是文本挖掘领域的重要研究问题。处理海量文本数据的一种重要方式便是从非结构化数据抽取结构化的知识,而实体链接技术正是一座连接非结构化数据和结构化知识库的桥梁。实体是客观世界中事物的抽象,在文本中通常有不同的表现形式。同时实体也是知识库中信息存储和组织的重要形式。实体链接的目标就是把非结构化文本中出现的实体指称映射到知识库中相应的实体。实体链接能促进很多其他自然语言处理任务,如知识库扩充、基于知识的问答、知识库融合等。  实体链接任务的难点在于实体指称的多样性和歧义性,同样的实体指称在不同的上下文中可以指代不同的实体,同样的实体在不同的上下文中可以有不同的实体指称,所以实体链接系统必须有效地建模和理解上下文信息。使用哪些上下文、如何表达上下文以及使用什么模型建模上下文,这些问题是实体链接任务的研究重点。  本文主要研究实体链接任务的相关技术,包括候选实体的生成和排序,词向量和实体向量的学习模型、基于句子模型的实体链接方法以及深度学习在实体链接中的应用等内容。  具体而言,本文的主要工作可以总结为如下几个方面:  (1)提出基于词向量和实体向量联合学习模型的实体链接系统。采用向量形式表示词和实体,不仅可以很好地避免词袋模型引起的稀疏问题,而且能够表达一定的语义信息。本文中我们提出了一个词向量和实体向量的联合学习模型。词和实体在文本中交替出现,两者之间存在某种联系,因此在向量学习过程中,词向量和实体向量间也应该存在信息交互。我们采用双线性模型建模词向量和实体向量之间的语义交互关系。我们用学习得到的词向量和实体向量建模上下文信息,构造特征集合,输入到排序模型排序候选实体,最后选择排序得分最高的候选实体作为目标实体。实验结果表明,提出的向量学习模型能学到有效的词向量和实体向量,基于向量能很好地建模上下文信息,从而提高实体链接模型的效果。  (2)研究基于句子层面上下文信息的实体链接模型。我们认为长度足够的句子包含有效的上下文信息以得到正确的目标实体。我们利用神经网络句子模型建模上下文语句信息,基于3种不同的排序机制,计算指称和候选实体相似度。我们构造了一个数据集用于评测实体链接模型,基于实验结果经验性地探究句子模型在实体链接任务中的作用。  (3)提出一个基于神经网络的全局实体链接方法。我们首先采用卷积神经网络建模上下文文本信息,利用网络输出计算局部相似度,构造特征向量。然后我们使用一个深层前向神经网络计算实体间的相关性,并基于实体相关性计算实体一致性。最后我们结合局部相似度和实体相关性,提出一个全局的实体链接方法。实体链接任务存在实体冷启动问题,我们采用信念传播算法近似求解。每个候选实体都被赋予一个排序得分,得分最高的候选实体即为系统预测得到的目标实体。对比基线方法,我们提出的实体链接方法在两个标准数据集上取得最好的效果。  (4)提出一个实体识别链接基线方法评测系统。实体链接研究现状的困惑主要归结于三个原因:(i)实体链接任务的定义不够明确;(ii)不同的实体链接方法使用不同的评价指标在不同的数据集上进行评测;(iii)对不同的实体链接方法内部子模块之间的区别并未深究。为了解决这些问题,我们提出一个实体识别链接基线方法的评测系统以评测不同方法的性能。该系统集成了不同的匹配机制和评价指标,同时集成了实体识别链接方法和数据集。系统提出了处理数据集中实体标签不一致和实体标签失效的解决方案。系统能独立评测方法的子模块,分析不同模块的优劣以便找到瓶颈,为构建更好的实体链接方法提供参考。
其他文献
随着物流信息化建设不断发展和无线射频识别(RFID,Radio FrequencyIdentification)技术应用的不断深入,我国的物流通关信息化建设出现了物流标准化滞后和缺乏统一的物流信息
XBRL(eXtensible Business Reporting Language,可扩展商业报告语言)是一种基于XML的报告语言。XBRL已经在证券、保险、银行等各金融行业得到了广泛的支持和应用。在XBRL的应
学位
立体显示技术经过几十年的发展,取得了很大的进展。目前,对立体显示技术主要分为立体眼镜、Autostereoscopic3D显示、体三维显示和全息三维显示技术四大类,其中立体眼镜和Autost
学位
软件需求是软件研发项目初始估计和计划的基础,同时也是软件产品开发和验证的基础。根据Standish Group从1994年到1997年的Chaos Reports证实,导致项目失败的最重要的原因与需
足球比赛是大众普遍喜爱的一种体育运动,每年都有许多的足球比赛电视转播。一场足球比赛通常在90分钟以上,由于视频媒体的时序性和无结构性,使得对于这些大量的视频媒体的人工编
计算机动画的人工生命方法受到“人工生命”学科的启发,通过建立动物及其生存环境的模型来生成动画,将自然生态系统中的动物生活逼真的表现出来。这种动画是基于人工生命的,人工
学位
最优化问题一直是许多专家学者研究的热点。人们在工程技术、科学研究和经济管理等诸多领域中经常会遇到最优化问题。为解决最优化问题,人们提出了很多优化算法,比如神经网络
H.264/AVC是由ITU-T的VCEG(视频编码专家组)和ISO的MPEG(运动图像专家组)共同制定的新的视频编码标准。H.264使用很多先进的视频编码方法,与现有标准相比,它可以获得更高的压缩
学位
随着信息科技的日益发展,数据存储量的快速膨胀,人们经常会面对海量数据的检索问题。为了提高数据检索效率,数据库提供商需要建立一个可伸缩的网络服务模型满足不断增长的负载需
学位
四边形、六面体网格属于半规整网格,除了有限的奇异点(边)外,其他部分都由规整网格组成。相比不规整网格如三角形、四面体网格,四边形和六面体网格在整体结构和单元性质方面具有天