论文部分内容阅读
命名实体识别是自然语言处理领域的基本问题,主要是识别出人名、地名、组织机构名等命名实体的类别和位置。命名实体是含有完整语义的基本单元,对命名实体的识别至关重要,是实现知识构建、语义理解的基础。命名实体识别对信息抽取、信息检索、机器翻译、问答系统等自然语言处理下游任务有着重要的支持作用。因此,命名实体识别性能的提升,对自然语言处理的众多任务都有着极大的帮助。 随着深度学习技术的发展,基于深度学习的方法在众多任务上都取得了很好的效果。相比于传统方法,深度学习方法无需构建人工特征即可实现端到端学习,在模型表示能力上有着天然的优势。本文主要研究基于深度学习的命名实体识别,主要是通过不同维度提高命名实体识别网络结构的表示能力,旨在实现一个高精度的命名实体识别系统。具体的研究内容如下: 1.融合标签依赖信息多通道命名实体识别。 在现有的命名实体识别的工作中,往往通过循环神经网络对输入句子进行表示学习,这种模型只考虑到了输入句子之间的依赖关系,而忽视了实体标签的不同距离的依赖关系。本文提出了基于tag-LSTM神经网络结构的多通道模型对实体标签依赖关系和词-标签交互进行建模。在现在流行的基于输入序列的LSTM模型基础上,引入另外一个信息通道——标签序列,充分考虑历史标签序列信息,以及词-标签交互信息,进行命名实体识别。设计并具体讨论了三种融合标签依赖信息的多通道模型结构:共享tag-LSTM模型、基于特征融合的独立tag-LSTM模型、基于联合预测的独立tag-LSTM模型。实验表明,这三种模型结构对命名实体识别效果均有不同程度的提升,其中基于联合预测的独立tag-LSTM模型效果最优。由此可见,融合标签依赖信息的多通道模型可以对不同距离标签依赖信息有效建模,提升命名实体识别的效果。 2.基于依存句法卷积结构隐层表示的命名实体识别。 在目前的神经网络命名实体识别中,对句子的建模主要采用双向循环神经网络。一些循环神经网络的变种(长短期记忆网络等),理论上可以学习到长距离的依赖信息,但是由于沿着时间逐个节点进行传播,随着距离增加,信息在传递过程中减弱,使得在处理长距离依赖信息的效果较差。而依存语法可以精确表征出句子中词语之间的语言依赖关系,这种信息更接近深层的语义,能有有效对语言进行建模。本文结合依存语法和神经网络,提出了基于依存图卷积结构隐层表示的命名实体识别方法,该方法可以通过依存语法树结构,学习词语的上下文表示,有助于解决单一循环神经网络的长距离依赖问题,增强隐层的学习表示能力。实验证明,基于该网络结构的命名实体识别系统效果优于BiLSTM-CRF网络。 3.基于线性连接和条件转移的深度命名实体识别。 目前,神经网络命名实体识别模型大多基于浅层网络。深度的网络结构可以增强模型的表示学习能力,随着深度的增加,模型可以建模更加复杂的语言依赖和语言结构。本章提出了一种基于线性连接和条件转移的深度命名实体识别系统。由于网络加深,由输入层到输出层经过的非线性变换次数增多,神经网络使用反向传播训练时会引发梯度弥散和梯度爆炸问题,阻碍网络的正常训练,本章提出了一种线性连接门(Linear Connection Gate Mechanism)结构,动态融合神经网络单元的线性输出和非线性输出,缓解训练时的梯度弥散和梯度消失问题。另外,由于之前的神经网络模型,利用固定的转移矩阵建模标签之间的跳转关系,转移矩阵是独立的,它与上下文无关,这种结构限制了对转移关系的建模。本章提出了一种条件转移机制(Conditional Transition Mechanism),并应用于命名实体识别。条件转移结构可以根据不同的上下文对标签的跳转进行更细致的建模,提升命名实体识别的效果。