基于神经网络模型的汉语基本块识别

来源 :山西大学 | 被引量 : 0次 | 上传用户:pailfj
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
汉语基本块识别是汉语语块分析体系中的基础任务之一,属于浅层句法分析的一个环节。对给定的汉语句子,汉语基本块识别任务将形式化为以字为基本标注单位的序列标注问题。基于多层神经网络模型,以汉字的分布表征作为初始输入,融合分词隐层特征进行模型训练,探索构建性能更为优良的汉语基本块识别任务的神经网络模型。以原始句子为输入,以字为基本标注单位构建的神经网络模型,不同于传统方法的标注模型那样对人为构建的特征的依赖,以及语块分析对分词系统性能的依赖。本文的主要创新点有以下两点:一是以整句的似然函数作为优化目标。目前文献中神经网络模型在汉语基本块识别时是以单点似然为优化目标,对较长的语块的识别不够准确。因此,本文借鉴Collobert et al(2011)的方法,以整句的似然函数为优化目标函数,编程实现了对此目标函数的SGD优化算法。实验结果表明,应用此方法,整个句子输出的标记序列更为合理,一定程度上减少了不合法标记的产生(比如,将语块内部的标点符号划分到语块外的现象),有效提升了汉语基本块的识别性能,特别对多字块的召回率提升了3%-5%。二是提出了融合分词隐层特征的汉语基本块识别的神经网络模型。该模型将分词与基本块识别两个任务融合到一起进行训练,两者都以字的分布表特作为输入,共享同一个字的分布表征矩阵。模型参数训练过程中,对两个任务模型采用交替训练的方式,训练时每次只更新自己模型部分的参数,但是对于共享的字分布表征矩阵中的参数要共同更新。不但避免了分词部分的参数对分词任务过于拟合而影响到基本块的识别性能,而且字分布表征向量的参数不会过于偏向其中某个任务目标而影响整体性能。实验结果表明,融合分词隐层特征的联合模型在汉语基本块识别任务上的F值提高了2.1%。此外,本文还使用Word2Vec的方法先预训练字的分布表征,再作为上述神经网络模型的初始输入向量进行整个模型的训练。实验结果表明,在大语料下用Word2Vec方法训练得到的字分布表征对于汉语基本块识别任务的性能也有一定的提升。
其他文献
随着网络技术的发展及网络应用的普及,入侵检测作为网络安全的主动防御工具,也面临着更多新的挑战,尤其是在大量的网络数据、在线学习以及噪声数据等情况下,无法准确识别网络
随着信息技术的不断发展与在企业中应用的不断扩大,数据库做为数据存储与管理的软件系统,其作用越来越被从业人员所重视,伴随而来的是数据库管理与性能调整、监控问题。数据
随着新兴电子商务平台广泛使用,用户在享受便利的同时,也通过论坛发表关于产品的观点。通过这些评论,普通用户可以了解产品的性能,为购买行为做出理性的选择,生产者可以快速
图像信号在产生、传输和记录过程中,经常会受到各种噪声的干扰,这破坏了图像的视觉效果,严重影响了边缘检测、图像分割等后续处理的进行。因此,采用适当的方法减少噪声(即对
近年来,随着各种应用需求的不断增长,数据融合技术作为一门新兴交叉学科得到飞速发展和广泛关注。各种传感器、信息源所获得的大量数据均希望通过数据融合系统相互互补,以获
在自然语言处理领域,语义推理研究是一个非常重要的研究课题。虽然目前的语义研究尚且不够成熟,但语义推理研究对于深入分析文本语义,使计算机更加智能具有深刻的意义。本文
在电信行业,其客户数据的增长速度越来越快,为了提高其决策效率,人们已将数据挖掘中的聚类分析技术引入电信业的客户关系管理中。在数据挖掘中,大部分对象的类属性和归属关系没有严格要求和限制,这些对象数据的属性存有重复叠加性、和交错性,这种特点比较适合进行模糊划分,而且现实生活中许多客观事物之间又具有模糊性,便产生了模糊聚类分析。将模糊聚类应用于各个领域成为了一个研究热点。本文对课题研究主要有以下几个方面
伴随着网络技术的发展,许多应用需要迁移到网络环境的异构平台上,这对新一代的软件开发提出了新的需求。中间件(Middleware)正是应这个需求而被提出,成为研究的热点。   消息
学位
MicroRNA(MiRNA)是RNA家族中的一员,被称为小分子RNA。目前,众多的研究表明,miRNA与生物体的基因表达、生长发育和行为等都有十分密切的关系。早期对miRNA的识别均采用生物学