论文部分内容阅读
随着互联网技术的发展和普及,网络已经成为大多数人日常生活中必不可少的一部分。互联网上存在大量的非结构化电子文本,面对日益增长的网页数据,如何帮助人们理解这些数据,快速地从海量的非结构化文本中发现知识,以及如何将这些文本知识表示成计算机能够“理解”的形式,从而减轻人类的学习成本,显得越来越重要。信息抽取(Information Extraction)技术的研究正是为了解决这个问题。 关系抽取(Relation Extraction)是信息抽取技术的重要环节,是信息抽取领域重要的基础任务和难点问题之一,其任务是从结构化和非结构化文本中自动识别出一对概念和联系这对概念的语义关系,并构成关系三元组。关系抽取不仅有助于互联网信息的管理与服务,而且对于文本内容理解具有重要支撑作用,能够将文本分析从语言层面提升到内容层面,对大规模知识库构建、问答系统、语义搜索等具有潜在的应用前景。因此,关系抽取技术得到了学术界和工业界的广泛关注,正成为越来越热门的研究课题。近年来,面向结构化文本的关系抽取研究已经取得了一定进展。然而,由于自然语言灵活多变,同一种语义关系可以使用不同的语言表达,而同一种语言表达在不同上下文中也经常描述不同的语义关系,自然语言的歧义性对面向非结构化文本的关系抽取提出了很大的挑战,其性能一直较低,其中有许多值得研究的问题。 本论文针对面向非结构化文本的关系抽取关键技术展开研究,研究成果主要包括: 1、对于有监督关系抽取方法,针对特征提取过程中存在的误差累积问题,提出基于卷积神经网络(CNNs,Convolutional Neural Networks)的关系抽取方法,该方法不依赖于现有的自然语言处理工具,利用卷积网络从原始文本中自动学习表示语义关系的特征,特别地考虑了每个词的相对位置对语义关系的影响。具体地,首先通过查询词向量,将输入文本表示为向量形式,然后抽取待给定语义关系的词语对应的向量作为词汇级别特征,同时利用卷积网络进行语义组合得到句子级别特征,最后将这两种特征拼接起来构成最终的特征向量。实验结果表明,与基线系统相比,该方法在关系抽取任务上性能有显著提升,显著地改善了传统特征抽取存在的误差累积问题,同时使用位置特征后系统性能进一步提升。 2、对于弱监督(DS,Distant Supervision)关系抽取方法,针对训练数据中存在回标噪声以及卷积网络中使用最大池化时信息丢失的问题,提出基于分段卷积神经网络(PCNNs,Piece-wise Convolutional Neural Networks)的弱监督关系抽取方法,该方法将弱监督关系抽取看作多示例问题,每个样本作为多示例包输入,利用分段卷积网络对包中的每个示例自动学习特征,将目标函数定义在包上,使用多示例学习训练网络参数,从而减少数据回标噪声对实验结果的影响。另外,该方法使用分段最大池化代替传统卷积网络的池化操作,以捕获句子中的结构化特征。实验结果表明,在held-out评价和人工评价两种指标上,该方法取得的结果均好于基线系统,有效克服了回标噪声以及使用最大池化时信息丢失的问题。 3、对于弱监督关系抽取方法,针对冗余信息利用的问题,提出基于模板空间特征的弱监督关系抽取方法,该方法将实体对表示为模板空间上的分布,从而利用多个句子的信息进行关系预测。该方法首先找出关系实例对应的句子,对每个句子提取句法模板,然后过滤掉低质量模板,将剩下的模板组成模板空间,最后根据关系的对偶表示,将实体对表示为在模板空间上的分布,进而提取模板空间特征。实验结果表明,该方法能较好地利用冗余信息,相对于基线系统,取得了更好的效果。