论文部分内容阅读
汉语基本块识别是汉语语块分析体系中的基础任务之一,属于浅层句法分析的一个环节。对给定的汉语句子,汉语基本块识别任务将形式化为以字为基本标注单位的序列标注问题。基于多层神经网络模型,以汉字的分布表征作为初始输入,融合分词隐层特征进行模型训练,探索构建性能更为优良的汉语基本块识别任务的神经网络模型。以原始句子为输入,以字为基本标注单位构建的神经网络模型,不同于传统方法的标注模型那样对人为构建的特征的依赖,以及语块分析对分词系统性能的依赖。本文的主要创新点有以下两点:一是以整句的似然函数作为优化目标。目前文献中神经网络模型在汉语基本块识别时是以单点似然为优化目标,对较长的语块的识别不够准确。因此,本文借鉴Collobert et al(2011)的方法,以整句的似然函数为优化目标函数,编程实现了对此目标函数的SGD优化算法。实验结果表明,应用此方法,整个句子输出的标记序列更为合理,一定程度上减少了不合法标记的产生(比如,将语块内部的标点符号划分到语块外的现象),有效提升了汉语基本块的识别性能,特别对多字块的召回率提升了3%-5%。二是提出了融合分词隐层特征的汉语基本块识别的神经网络模型。该模型将分词与基本块识别两个任务融合到一起进行训练,两者都以字的分布表特作为输入,共享同一个字的分布表征矩阵。模型参数训练过程中,对两个任务模型采用交替训练的方式,训练时每次只更新自己模型部分的参数,但是对于共享的字分布表征矩阵中的参数要共同更新。不但避免了分词部分的参数对分词任务过于拟合而影响到基本块的识别性能,而且字分布表征向量的参数不会过于偏向其中某个任务目标而影响整体性能。实验结果表明,融合分词隐层特征的联合模型在汉语基本块识别任务上的F值提高了2.1%。此外,本文还使用Word2Vec的方法先预训练字的分布表征,再作为上述神经网络模型的初始输入向量进行整个模型的训练。实验结果表明,在大语料下用Word2Vec方法训练得到的字分布表征对于汉语基本块识别任务的性能也有一定的提升。