面向非结构化文本的事件抽取关键技术研究

来源 :中国科学院大学 | 被引量 : 0次 | 上传用户:kmask
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网技术的发展和普及,网络已经成为人们日常生活中必不可少的部分。互联网上存在大量的非结构化电子文本,面对日益增长的网页数据,如何帮助人们理解这些数据,快速地从海量的非结构化文本中发现知识,以及如何将这些文本知识表示成计算机易于“理解”的形式,从而减轻人类的学习成本,显得越来越重要。信息抽取技术的提出正是为了解决这个问题。  事件抽取是信息抽取技术的重要环节,也是信息抽取领域的难点问题。它旨在从非结构化文本中抽取出用户感兴趣的事件信息并以结构化的形式呈现出来,如什么人,什么时间,在什么地方,做了什么事。事件抽取不仅有助于互联网信息的管理与服务,而且对于文本内容理解具有重要支撑作用,能够将文本分析从语言层面提升到内容层面,对大规模知识库构建、自动问答、语义搜索、舆情监控等具有潜在的应用前景。因此,事件抽取技术得到了学术界和工业界的广泛关注,成为越来越热门的研究课题。近年来,基于机器学习的事件抽取研究已经取得了一定的进展,其中基于监督学习的方法占据了主导位置并取得一系列成果,然而其性能一直比较低。现有方法主要面临着三个挑战:(1)特征方面:特征提取过程中过分依赖现有的自然语言处理工具,存在误差累积问题;(2)语料方面:训练语料由人工标注耗时、费力、成本昂贵,而且语料规模较小、类别较少;(3)抽取过程方面:独立预测各个候选事件元素,忽略事件内部各个元素之间的关系和影响。本文针对上述挑战和问题,面向非结构化文本的事件抽取关键技术展开研究,研究成果主要包括:  1、针对特征提取过程中过分依赖自然语言处理工具造成的误差累积问题,提出基于动态多池化卷积神经网络的事件抽取方法。该方法不依赖于现有的自然语言处理工具,利用动态多池化卷积神经网络从原始文本中自动学习表示事件信息的特征,特别地考虑了一句话中有多个事件的情况。具体地,首先将输入文本表示为词向量形式,然后抽取候选事件触发词和事件元素对应的向量作为词汇级特征,同时利用动态多池化卷积神经网络进行语义组合得到句子级特征,最后将这两种特征拼接起来构成最终的特征向量。实验结果表明,与基线系统相比,该方法在事件抽取任务上性能有显著提升,改善了传统特征抽取存在的误差累积问题,同时使用动态多池化技术后系统性能进一步提升。  2、针对人工标注语料耗时、费力、成本高昂的问题,提出基于世界知识和语言学知识的事件语料大规模自动生成方法。该方法不依赖人工标注,利用世界知识和语言学知识自动生成大规模事件标注语料。首先利用世界知识发现每个事件类型的核心元素和触发词,然后利用语言学知识扩展和过滤事件触发词,最后提出面向事件抽取的远距离监督回标方法,利用事件触发词和核心元素自动地标注事件语料。评价结果显示,自动生成的语料正确率能达到85%,而且能有效扩展人工标注的语料,进而提升事件抽取模型的性能。除此之外,本文还针对自动生成数据中的噪声问题,将多示例学习算法融入到基于动态多池化卷积神经网络的事件抽取方法中,从而减少数据回标噪声对实验结果的影响。实验结果表明,在held-out评价和人工评价两种指标上,该方法取得的结果均好于基线系统,有效缓解了回标噪声的问题。  3、针对传统方法抽取事件过程中忽略事件内部结构和候选元素之间的内在影响和语义关系的问题,提出基于双向长短期记忆张量神经网络的事件抽取方法。该方法能考虑一个事件中各个候选元素之间的内在影响和语义关系,进而联合预测一个事件中的所有元素。具体地,首先利用双向长短期记忆神经网络完成基于上下文的词语语义表示和句子级语义表示,然后,利用张量层来捕获各个候选事件元素之间的内在影响和语义关系,进而完成所有事件元素的联合预测。实验结果表明,该方法能较好地捕获一个事件中各个元素之间的内在影响和语义关系,相对于基线系统,取得了更好的效果。
其他文献
随着计算机图形学、三维数据获取技术和三维建模技术的发展以及计算机网络的普及,三维模型的数量与日俱增。三维模型较之二维图像,能够更加全面真实地反映现实世界,因此被广泛应
淀粉含量的高低是评价马铃薯品质性状的主要指标,但传统淀粉含量检测方法费时、费力且对环境有污染。为解决以上问题本文采用当前应用相当广泛的近红外光谱分析技术,建立了马铃
学位
随着铜加工行业信息化的推广和应用,传统的生产成本管理模式已不适应企业发展的要求。铜加工行业生产过程复杂,产品品种、规格多样,生产成本管理工作难度大。铜加工行业正面
学位
高分辨率光学遥感图像的特征提取是遥感领域的研究热点,是实现目标检测、场景分类等计算机视觉应用的基础。随着计算机视觉和模式识别等学科领域的发展,高分辨率光学遥感图像的
随着社会老龄化问题的日益严峻,各类残疾人和长期卧床病人大量存在并持续增长,康复医疗工作面临前所未有的压力,助老助残问题正日益成为一个重大的社会问题。减重型下肢康复训练
糖度是砂糖橘品质检测方面的一个重要指标,糖度的传统检测方法是用糖度计对砂糖橘进行有损检测,因此研究砂糖橘糖度的无损检测显得越来越重要。本文提出了砂糖橘糖度的近红外光
功能安全国际标准提出了一些实现安全相关系统功能安全的方法,为安全仪表系统等安全相关系统提供了系统设计、实现和维护等方面的标准依据。针对功能安全国际标准IEC61508/IE
洪涝灾害救助系统是一个复杂系统,其具有规模庞大、结构复杂、非线性等特点,研究发现使用单纯的数学方法已经很难对这些复杂性进行描述和分析,而基于多Agent的系统建模和仿真
学位
吕宋芒又名小吕宋,广东的蜜芒、粤西1号均属吕宋芒,果肉橙黄色,细嫩、汁多、昧甜,纤维极少或无,品质极佳,深受消费者的喜爱。目前,吕宋芒品质的分级工作基本上仍靠人工挑选完成,依靠