论文部分内容阅读
随着互联网信息内容的爆炸,网络上充斥着大量的近音词、缩略语、同义词等非规范的中文表达。由于中文在组织与使用上的灵活性,大量的文本主体词采用这些形式的衍生词进行表达,这类主体词被称为网络衍生实体。由于中文网络衍生实体复杂多变,难以识别,并且常常被用来替换原词语以规避政府的网络舆情监管,因此给自然语言处理及舆情监控带来了诸多困难。针对特定类别的衍生实体识别,虽然国内外学者已有广泛的探讨和研究,却至今没有对网络衍生实体的整体数据分布进行研究;并且,大量的新的衍生实体不断出现,对网络衍生实体的识别技术提出了新的要求。本文的主要工作如下:1)分别针对各类衍生实体的识别,对国内外的解决方法进行了研究和对比,分析了近年来主流识别模型的方法和技术的发展趋势;通过对各方法的分析与总结,指出各方法在实际应用中的优劣之处;同时,结合本文所研究的问题的特点,提出采用基于深度学习的方法进行中文网络衍生实体识别的新思路。2)提出了两种用于中文网络衍生实体识别的神经网络架构:滑动窗口法和句子卷积法,从而解决了文本中句子长度不统一、无法输入神经网络的问题;采用word2vec技术获取模型输入向量;同时,采用栈式自编码器编码人工特征向量,组成复合输入以进一步提高模型的识别效果;通过采用特殊的激活函数和训练算法,加速了模型的训练过程,进一步优化了模型的结构。3)在构建的语料库基础上,进行了大量的对比实验。由于缺少开放语料库,本文采用Scrapy爬虫框架进行语料的抓取(语料大小为252.3MB),并且通过人工标注,完成了语料库的构建;针对该语料库,进行了大量的衍生实体识别测试,并比较了模型在各类实体识别上的结果差异;实验结果表明,本文所提出的两种模型框架,均能够有效地应对网络衍生实体识别的问题,其性能指标F1值分别为78.6%和76.9%,并在各类实体的识别上各有所长,其结果均优于采用传统模型在该语料集上的识别效果;同时,通过研究不同参数、不同方法对实验结果的影响,得到了关于该模型的更一般的调参经验,为其他研究人员提供了参考。实践表明,本文所提出的基于深度学习的神经网络实体识别模型,可以很好地应用于中文网络衍生实体的识别任务上来。该模型可以同时对各类衍生实体得到较好的识别性能,能够满足大数据背景下中文网络衍生实体识别的新需求。