论文部分内容阅读
作为自然语言处理领域的子任务之一,命名实体识别已经成为人工智能背景下的热门研究对象,是信息检索、机器翻译、智能问答等诸多应用领域研究中的核心问题。中文命名实体识别较英文命名实体识别相对困难,原因在于中文的最小语言元素是字,并且词与词之间没有明显的符号界限。为了进一步提高中文命名实体的识别效率,本文提出了一种基于XLNet模型与字词融合编码的中文命名实体识别方法。首先,本文的方法将中文命名实体识别作为XLNet模型的一个新的应用场景。基于XLNet的中文命名实体识别方法继承了Transformer模型的优势,克服了传统循环神经网络在自然语言处理问题中并行性差的局限。此外,基于XLNet的命名实体识别引入了预训练模型,使语言模型在大规模语料库的预训练之下能够捕获大量文本的先验知识。预训练后的模型再经过下游任务的参数微调即可得出最终的目标模型。同时,本文的另一个创新点是在词嵌入阶段对输入序列进行分词与分字的融合编码。这使模型不仅克服了中文文本分词困难的局限,而且能够兼顾对输入文本中词与词之间关联性的关注。此外,为了将本文所提出的理论与实践相结合,本文的工作还包含了一个中文命名实体识别演示系统,目的是将中文命名实体识别的全过程可视化地呈现出来以表明本文算法的优越性。本文的实验部分使用了三个数据集,分别是1998年人民日报数据集、玻森数据集以及MSRA数据集。本文提出的方法与其它三种优秀算法在不同数据集上进行了实验效果对比。实验结果表明,本文的方法较对比算法在识别的准确率、召回率以及F1值上均有了提升。