基于深度学习的中文网络衍生实体的识别与分类

来源 :武汉大学 | 被引量 : 1次 | 上传用户:angelboy8100
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网信息内容的爆炸,网络上充斥着大量的近音词、缩略语、同义词等非规范的中文表达。由于中文在组织与使用上的灵活性,大量的文本主体词采用这些形式的衍生词进行表达,这类主体词被称为网络衍生实体。由于中文网络衍生实体复杂多变,难以识别,并且常常被用来替换原词语以规避政府的网络舆情监管,因此给自然语言处理及舆情监控带来了诸多困难。针对特定类别的衍生实体识别,虽然国内外学者已有广泛的探讨和研究,却至今没有对网络衍生实体的整体数据分布进行研究;并且,大量的新的衍生实体不断出现,对网络衍生实体的识别技术提出了新的要求。本文的主要工作如下:1)分别针对各类衍生实体的识别,对国内外的解决方法进行了研究和对比,分析了近年来主流识别模型的方法和技术的发展趋势;通过对各方法的分析与总结,指出各方法在实际应用中的优劣之处;同时,结合本文所研究的问题的特点,提出采用基于深度学习的方法进行中文网络衍生实体识别的新思路。2)提出了两种用于中文网络衍生实体识别的神经网络架构:滑动窗口法和句子卷积法,从而解决了文本中句子长度不统一、无法输入神经网络的问题;采用word2vec技术获取模型输入向量;同时,采用栈式自编码器编码人工特征向量,组成复合输入以进一步提高模型的识别效果;通过采用特殊的激活函数和训练算法,加速了模型的训练过程,进一步优化了模型的结构。3)在构建的语料库基础上,进行了大量的对比实验。由于缺少开放语料库,本文采用Scrapy爬虫框架进行语料的抓取(语料大小为252.3MB),并且通过人工标注,完成了语料库的构建;针对该语料库,进行了大量的衍生实体识别测试,并比较了模型在各类实体识别上的结果差异;实验结果表明,本文所提出的两种模型框架,均能够有效地应对网络衍生实体识别的问题,其性能指标F1值分别为78.6%和76.9%,并在各类实体的识别上各有所长,其结果均优于采用传统模型在该语料集上的识别效果;同时,通过研究不同参数、不同方法对实验结果的影响,得到了关于该模型的更一般的调参经验,为其他研究人员提供了参考。实践表明,本文所提出的基于深度学习的神经网络实体识别模型,可以很好地应用于中文网络衍生实体的识别任务上来。该模型可以同时对各类衍生实体得到较好的识别性能,能够满足大数据背景下中文网络衍生实体识别的新需求。
其他文献
<正>2005年11月3日,德国A公司与宁波B公司签订听装桔子罐头买卖合同,约定由宁波B公司向德国A公司提供约定数量与规格的听装桔子,FOB宁波4.50美元/托,根据买方的出货
贮存稳定性是改性沥青的关键技术性能之一.目前SBS改性沥青的贮存稳定性较差,限制了其在水利工程中的应用.本文以改进掺配工艺为主要途径,采用母体法解决了SBS改性沥青贮存稳
国务院批复的福州新区,涉及多个行政区和已有工业园区、开发区的协调。未来运作体制如何理顺,避免内耗,是当前非常紧迫的课题。我国浦东新区开发早期也是涉及多个行政区,当年
<正>本刊讯(记者周玉清)10月19~21日,由西南大学承办的中国学位与研究生教育学会师范类工作委员会2017年工作会议在重庆市召开,来自52个单位的近130名代表参加了会议。会上,
<正>在移动业务高度普及的今天,移动新发展用户主要来自存量市场,而换机是用户换号的重要时机,因而运营商越来越多地通过合约、终端补贴来寻求移动用户的发展。各类终端零售
利用星敏感器进行白天大气层内观星,首先要解决的问题是强天空背景的干扰。通过对白天天空背景和不同光谱恒星的特点进行分析,提出了光谱滤波和偏振成像加形态学滤波和多帧图
信息时代飞速发展,带动世界变成移动化,智能化。信息数据的爆炸式增长,推动术语学也在不断更新与发展。术语数据规模的增长,信息文化的丰富,促使术语概念含义逐渐多样性。术