论文部分内容阅读
实体识别与关系抽取是信息抽取中的一项重要任务。目前主流的做法是将实体关系进行联合抽取,现有的基于远程监督的实体和关系抽取方法存在着标签噪声问题。本文提出了一种基于强化学习的实体关系联合抽取方法。该模型有两个模块:句子选择器模块和实体关系联合抽取模块。句子选择器模块选择没有标签噪声的高质量句子,将所选句子输入到实体关系联合抽取模型。实体关系联合抽取模块采用序列标注方法,对输入的句子进行预测,并向句子选择器模块提供反馈,指导句子选择器模块挑选高质量的句子。这两个模块共同训练来优化句子选择和序列标注过程。实验结果表明,该模型能有效地处理数据的噪声,在实体和关系联合抽取上有较好的效果。本文的主要研究内容包括以下几个方面:(1)针对远程监督的公开数据集,使用一种可以同时将实体与关系的信息抽取出来的标签,将数据集进行预处理,在处理之后的数据集上可以将实体关系联合抽取转换成序列标注问题,也就是通过含有足够信息的标签可以在一个模型中同时抽取出实体与关系。(2)将实体关系联合抽取转化为一个统一的序列标注问题后,研究了多种序列标注模型,包括经典的BI-LSTM-CRF模型,将CRF解码器换成LSTM解码器的BI-LSTM-LSTM模型,优化损失函数的BI-LSTM-LSTM-bias模型,基于注意力机制的BI-LSTM-LSTM-Attention模型等,这些改进的编码解码模型能够更准确地抽取文本的实体与关系。(3)在序列标注模型的基础上,针对远程监督的噪声数据集,引入基于强化学习的句子选择器,选出一批低噪声的数据当作训练集,训练联合抽取模型。最终把联合模型与强化学习模型一起训练,即RL-BI-LSTM-CRF模型,基于强化学习的句子选择器模型可以作为一个单独的模块与多种序列标注模型进行组合。在远程监督构建的公开数据集上的实验结果表明,本文提出的改进的序列标注模型以及基于强化学习的实体关系联合抽取模型相比于经典的BI-LSTM-CRF模型,实验效果有着不小的提升。