论文部分内容阅读
随着互联网技术的发展和普及,网络已经成为人们日常生活中必不可少的部分。互联网上存在大量的非结构化电子文本,面对日益增长的网页数据,如何帮助人们理解这些数据,快速地从海量的非结构化文本中发现知识,以及如何将这些文本知识表示成计算机易于“理解”的形式,从而减轻人类的学习成本,显得越来越重要。信息抽取技术的提出正是为了解决这个问题。 事件抽取是信息抽取技术的重要环节,也是信息抽取领域的难点问题。它旨在从非结构化文本中抽取出用户感兴趣的事件信息并以结构化的形式呈现出来,如什么人,什么时间,在什么地方,做了什么事。事件抽取不仅有助于互联网信息的管理与服务,而且对于文本内容理解具有重要支撑作用,能够将文本分析从语言层面提升到内容层面,对大规模知识库构建、自动问答、语义搜索、舆情监控等具有潜在的应用前景。因此,事件抽取技术得到了学术界和工业界的广泛关注,成为越来越热门的研究课题。近年来,基于机器学习的事件抽取研究已经取得了一定的进展,其中基于监督学习的方法占据了主导位置并取得一系列成果,然而其性能一直比较低。现有方法主要面临着三个挑战:(1)特征方面:特征提取过程中过分依赖现有的自然语言处理工具,存在误差累积问题;(2)语料方面:训练语料由人工标注耗时、费力、成本昂贵,而且语料规模较小、类别较少;(3)抽取过程方面:独立预测各个候选事件元素,忽略事件内部各个元素之间的关系和影响。本文针对上述挑战和问题,面向非结构化文本的事件抽取关键技术展开研究,研究成果主要包括: 1、针对特征提取过程中过分依赖自然语言处理工具造成的误差累积问题,提出基于动态多池化卷积神经网络的事件抽取方法。该方法不依赖于现有的自然语言处理工具,利用动态多池化卷积神经网络从原始文本中自动学习表示事件信息的特征,特别地考虑了一句话中有多个事件的情况。具体地,首先将输入文本表示为词向量形式,然后抽取候选事件触发词和事件元素对应的向量作为词汇级特征,同时利用动态多池化卷积神经网络进行语义组合得到句子级特征,最后将这两种特征拼接起来构成最终的特征向量。实验结果表明,与基线系统相比,该方法在事件抽取任务上性能有显著提升,改善了传统特征抽取存在的误差累积问题,同时使用动态多池化技术后系统性能进一步提升。 2、针对人工标注语料耗时、费力、成本高昂的问题,提出基于世界知识和语言学知识的事件语料大规模自动生成方法。该方法不依赖人工标注,利用世界知识和语言学知识自动生成大规模事件标注语料。首先利用世界知识发现每个事件类型的核心元素和触发词,然后利用语言学知识扩展和过滤事件触发词,最后提出面向事件抽取的远距离监督回标方法,利用事件触发词和核心元素自动地标注事件语料。评价结果显示,自动生成的语料正确率能达到85%,而且能有效扩展人工标注的语料,进而提升事件抽取模型的性能。除此之外,本文还针对自动生成数据中的噪声问题,将多示例学习算法融入到基于动态多池化卷积神经网络的事件抽取方法中,从而减少数据回标噪声对实验结果的影响。实验结果表明,在held-out评价和人工评价两种指标上,该方法取得的结果均好于基线系统,有效缓解了回标噪声的问题。 3、针对传统方法抽取事件过程中忽略事件内部结构和候选元素之间的内在影响和语义关系的问题,提出基于双向长短期记忆张量神经网络的事件抽取方法。该方法能考虑一个事件中各个候选元素之间的内在影响和语义关系,进而联合预测一个事件中的所有元素。具体地,首先利用双向长短期记忆神经网络完成基于上下文的词语语义表示和句子级语义表示,然后,利用张量层来捕获各个候选事件元素之间的内在影响和语义关系,进而完成所有事件元素的联合预测。实验结果表明,该方法能较好地捕获一个事件中各个元素之间的内在影响和语义关系,相对于基线系统,取得了更好的效果。