面向预定义关系类型的知识抽取关键技术研究

来源 :中国科学院大学 | 被引量 : 0次 | 上传用户:wuwenwu321
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网技术的快速发展,网络中的文本数据急剧增加。海量的文本一方面蕴含了丰富的知识,另一方面也夹杂了庞大的冗余信息,这使得用户面临着信息过载的困绕。因此,如何从这些非结构化的文本数据中高效、精准地抽取出实体及他们之间的关系以形成结构化的知识,帮助人们快速获取关键性的信息,丰富各种智能化应用所依存的知识资源,是知识抽取领域的研究热点。  本文以非结构化文本为研究对象,以人们预定义的关系类型为中心,以获取结构化知识单元为目的,在文本主题抽取的前提工作下,从三种不同的知识抽取角度展开了相关研究。本文中,结构化的知识单元是指一种特殊的三元组,三元组中的“主语(subject)”和“宾语(object)”都是被抽取文本中的实体词,而“谓词(predicate)”是预定义的关系类型。三种不同的知识抽取方式分别是先识别实体再抽取关系的串联抽取方式、实体和关系的关联抽取方式和三元组的端对端抽取方式。具体研究内容及工作成果主要包括以下四个方面。  1.提出了一种无监督文本主题向量化方法用于抽取文本主题。文本主题概括了文本的主要语义信息。抽取文本语料的主题信息,有助于定义关系类型体系和抽取特定领域知识,是知识抽取的基础工作。针对主题抽取问题,本文借鉴word2vec的思想,提出了一种无监督的文本(句子,文档)主题向量化方法,该方法能有效地将文本自动地映射到一个低维的语义空间中,使相似主题文本在该空间的距离尽可能地接近,解决了传统主题抽取方法的高维、稀疏、语义鸿沟等问题。在相关任务的数据集上进行了丰富实验,结果表明所提方法在主题抽取方面具有明显优势。  2.提出了一种同时挖掘关系模式特征和实体语义特征的关系抽取框架。关系抽取任务是在已知句子中实体的情况下判别实体之间的关系,是基于串联知识抽取方式的关键步骤。针对这一任务,本文分别设计了基于卷积神经网络与长短期记忆网络的关系模式特征挖掘模块和带扩散窗口的卷积网络的实体语义特征挖掘模块。通过融合上述两个模块,本文提出了一种抽取实体关系的关系抽取框架,并在关系抽取的公开数据集SemEval-2010中对此抽取框架进行实验验证。实验结果表明,所提方法取得了当时最佳的结果。与此同时,实验结果也充分验证了本文所提关系模式抽取模块和实体语义表示模块的有效性。  3.提出了一种对实体与关系进行关联抽取的方法。传统串联知识抽取方式侧重于分别优化“实体识别”和“关系抽取”两个子任务,往往忽视二者之间的联系,而已有的联合抽取方法又多是基于人工特征方式,耗时耗力且鲁棒性差。针对上述问题,本文提出了一种基于混合神经网络的实体与关系的关联抽取模型,该方法不仅避免了人工设计特征的过度参与,而且增强了实体识别和关系抽取的关联性。在信息抽取的公开评测数据集ACE05上的实验,验证了本文所提方法的有效性。  4.提出了一种基于序列标注的端对端三元组抽取方法。已有的三元组抽取算法都是通过获取实体元组和关系元组从而得到知识单元(三元组)。这在一定程度上造成误差累积和信息冗余等问题,影响了抽取效果。为了解决上述问题,本文设计了一种新型的标记策略,它可以将三元组抽取任务转化为序列标记的任务,进而通过端对端的算法实现三元组抽取。此外,本文在上述标记策略的基础上,结合三元组的标记特点,对基于双向长短时记忆网络的端对端模型进行了改进。通过在公开的大规模的相关数据集中进行相关实验,实验结果表明基于本文标记策略的端对端抽取方法的性能优于当前其他算法。
其他文献
随着人们生活节奏的加快,生活、工作等各方面压力的增加以及饮食的不合理,致使心血管疾病频发。心血管病之一的高血压已经越来越严重的威胁着人们的健康。血压测量已成为临床上
在pH中和过程控制中,被控对象的动态性往往呈现出严重的非线性和滞后性,这使得难以对其建立比较精确的模型,从而难于精确表达pH中和过程及实施整体优化控制。而Takagi和Sugeno于
随着微机电系统(Micro-Electro-Mechanism System, MEMS)、片上系统(SOC,System on Chip)、无线通信和低功耗嵌入式技术的飞速发展,孕育出无线传感器网络(Wireless Sensor Networks, WSN),并以其低功耗、低成本、分布式和自组织的特点带来了信息感知的一场变革。无线传感器网络中每个节点能源的有限性极大的束缚了无线传感器网路的发展
汽车仪表是驾驶员与汽车进行信息交流的重要窗口,对汽车的安全与经济行驶起着重要的作用。随着计算机技术的发展,嵌入式GUI作为人机界面的软件系统,己经被广泛应用。为了更好
高速、高精度的自动灌装设备和飞剪剪切设备长期以来处于国外垄断之中,而多轴同步控制技术是这类自动化设备必须解决的关键技术之一,也是国家数控科技重大专项中的关键技术之一
现代军用和民用导航系统需要详细的载体运动状态信息来进行载体控制。由陀螺仪和加速度计等传感器构成的捷联惯性导航系统以其独特的优点被广泛应用于导航系统中,实时自主地为
近年来,三相电压型PWM整流器做为电力电子设备的重要组成部分被广泛应用到工业节能和新能源发电中,对其性能的期望也越来越高。在电网不平衡时,采用常规控制策略的电压型PWM整流
自动文摘(Automatic Document Summarization,ADS)是自然语言处理领域的一个子领域。它是利用计算机系统自动生成文本摘要的应用技术,或者说是按读者(或用户)的要求以简洁的形
经过近几十年的积累,自主水下机器人(Autonomous Underwater Vehicles,AUVs)的技术逐渐发展成熟,目前已经在海洋开发、军事活动等领域发挥了重要作用。但随着人们对AUV能力的
近年来,基于深度神经网络的语种识别技术发展迅速。随着深度学习理论的进步,基于深度神经网络的语种识别技术经历了从生成式框架到判别式框架的转变,极大地提升了语种识别系统的