面向非结构化文本的关系抽取关键技术研究

来源 :中国科学院大学 | 被引量 : 0次 | 上传用户:hongshouwang123
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网技术的发展和普及,网络已经成为大多数人日常生活中必不可少的一部分。互联网上存在大量的非结构化电子文本,面对日益增长的网页数据,如何帮助人们理解这些数据,快速地从海量的非结构化文本中发现知识,以及如何将这些文本知识表示成计算机能够“理解”的形式,从而减轻人类的学习成本,显得越来越重要。信息抽取(Information Extraction)技术的研究正是为了解决这个问题。  关系抽取(Relation Extraction)是信息抽取技术的重要环节,是信息抽取领域重要的基础任务和难点问题之一,其任务是从结构化和非结构化文本中自动识别出一对概念和联系这对概念的语义关系,并构成关系三元组。关系抽取不仅有助于互联网信息的管理与服务,而且对于文本内容理解具有重要支撑作用,能够将文本分析从语言层面提升到内容层面,对大规模知识库构建、问答系统、语义搜索等具有潜在的应用前景。因此,关系抽取技术得到了学术界和工业界的广泛关注,正成为越来越热门的研究课题。近年来,面向结构化文本的关系抽取研究已经取得了一定进展。然而,由于自然语言灵活多变,同一种语义关系可以使用不同的语言表达,而同一种语言表达在不同上下文中也经常描述不同的语义关系,自然语言的歧义性对面向非结构化文本的关系抽取提出了很大的挑战,其性能一直较低,其中有许多值得研究的问题。  本论文针对面向非结构化文本的关系抽取关键技术展开研究,研究成果主要包括:  1、对于有监督关系抽取方法,针对特征提取过程中存在的误差累积问题,提出基于卷积神经网络(CNNs,Convolutional Neural Networks)的关系抽取方法,该方法不依赖于现有的自然语言处理工具,利用卷积网络从原始文本中自动学习表示语义关系的特征,特别地考虑了每个词的相对位置对语义关系的影响。具体地,首先通过查询词向量,将输入文本表示为向量形式,然后抽取待给定语义关系的词语对应的向量作为词汇级别特征,同时利用卷积网络进行语义组合得到句子级别特征,最后将这两种特征拼接起来构成最终的特征向量。实验结果表明,与基线系统相比,该方法在关系抽取任务上性能有显著提升,显著地改善了传统特征抽取存在的误差累积问题,同时使用位置特征后系统性能进一步提升。  2、对于弱监督(DS,Distant Supervision)关系抽取方法,针对训练数据中存在回标噪声以及卷积网络中使用最大池化时信息丢失的问题,提出基于分段卷积神经网络(PCNNs,Piece-wise Convolutional Neural Networks)的弱监督关系抽取方法,该方法将弱监督关系抽取看作多示例问题,每个样本作为多示例包输入,利用分段卷积网络对包中的每个示例自动学习特征,将目标函数定义在包上,使用多示例学习训练网络参数,从而减少数据回标噪声对实验结果的影响。另外,该方法使用分段最大池化代替传统卷积网络的池化操作,以捕获句子中的结构化特征。实验结果表明,在held-out评价和人工评价两种指标上,该方法取得的结果均好于基线系统,有效克服了回标噪声以及使用最大池化时信息丢失的问题。  3、对于弱监督关系抽取方法,针对冗余信息利用的问题,提出基于模板空间特征的弱监督关系抽取方法,该方法将实体对表示为模板空间上的分布,从而利用多个句子的信息进行关系预测。该方法首先找出关系实例对应的句子,对每个句子提取句法模板,然后过滤掉低质量模板,将剩下的模板组成模板空间,最后根据关系的对偶表示,将实体对表示为在模板空间上的分布,进而提取模板空间特征。实验结果表明,该方法能较好地利用冗余信息,相对于基线系统,取得了更好的效果。
其他文献
随着电力系统的不断发展,电网规模日益扩大,电力变压器的数量也随之增加,电力变压器是电力系统中重要的电力传输和转换设备之一,它的运行状态将直接影响整个电力系统的安全和稳定
在低压配电系统中,三相负荷随机变化产生了三相不平衡,不但影响着电力系统的安全稳定运行,也降低了供电系统的电能质量。 本设计通过对电能质量要求的分析阐明了无功补偿装置
本文对基于排斥吸引函数的一类混沌系统进行了探讨。本研究利用排斥吸引函数容易实现有界离散映射的特点,构造了一类一维及高维的混沌映射,对其分岔机理进行了初步研究,并成功应
一些微纳米尺度的物质,如细胞、DNA、碳纳米管、纳米颗粒等具有很多独特的电磁学、力学、热学以及物理、化学性能,因此在纳米电子学、微纳米机械系统、生物医学、生命科学等领
随着近几年,随着工业信息化进程的快速推进,信息网络和物联网技术在工业控制领域的广泛应用,使得工业控制系统逐渐打破了其以往在物理环境上的封闭性,并且也开始遭受传统的信息网
随机大系统是具有规模庞大、因素众多、结构复杂、功能综合、目标多样以及不确定的随机性等特点的系统模型,它能更真实、更客观、更准确地反映工程实际中的系统运动规律。随机
红外成像系统稳定成像是实现对目标的稳定跟踪进而完成导弹制导和目标监视的基本保证。环境温度的变化是影响红外成像系统稳定性的一个重要因素。尽管光学系统都存在热效应,但
伴随着计算机技术、大数据技术、云计算技术的飞速发展,基于云计算的网络犯罪案件频繁发生,云取证技术在此背景下逐渐兴起。云取证要求在复杂的网络环境中,确保取证证据的原始性
数字化、智能化和集成化是制造技术目前的发展热点和未来的重要特征,也是二十一世纪先进制造技术的发展趋势。随着测量技术、自由曲面重建技术和机器人加工技术的发展,三者之间
随着电力系统规模的不断扩大和系统间互联的增加,电网在发挥巨大经济效益的同时,也带来了电压失稳的潜在危险性,实施大电网的无功电压分区控制,保证系统正常运行、提高电压水平、防止电压崩溃具有重大意义。本文针对电网分区中网络区域的划分和主导结点的选择提出了综合灵敏度矩阵,该矩阵中的不同矩阵块分别为:无功源的无功输入对各节点电压、负荷节点的电压对其它负荷节点的电压的控制灵敏度。提出的综合灵敏度矩阵能够解决应