论文部分内容阅读
词表示技术是深度学习在自然语言处理(NLP)领域的突破。词表示技术是将词转化成为向量表示。词向量被广泛应用于各种NLP任务。Word2vec是Google在2013年发布的一款将词表示为实数值向量的高效工具。词语是文本中承载语义信息的最小单元。英文单词由字母组成,中文词语由汉字组成。借鉴英文词表示的方法,中文词表示引入了汉字的信息。研究表明,将汉字的语义信息融入词表示中,得到的词向量在某些NLP任务中取得了成功。但是现有的模型在考虑汉字对词语的语义贡献程度上存在一定的局限性,使学习到的词向量在一些NLP任务上表现的差强人意。针对这个问题,本文提出了一种基于注意力机制的词表示方法,该方法利用《同义词词林扩展版》来计算字词间的语义相似度。实验证明,通过该方法获得的词向量在词语的语义相关性实验上要优于现有的基线模型。并且将改进的Word2vec应用于微博评论的情感分析任务上也取得了较好的结果。本文具体的工作内容如下:1.本文提出了一种增量式的词向量学习方法,使其在面对语料库的新增内容时,不需要重新训练所有的语料库,仅做由于新增数据所引起的更新。2.本文提出了一种基于注意力机制的字词联合训练模型ACWE,利用词林来计算字词间的语义贡献程度。通过语义相关性实验证明,本文提出的方法要优于现有的基线模型。3.将改进的Word2vec应用于微博评论的情感分析上,通过实验验证了改进后的Word2vec的有效性。