论文部分内容阅读
随着网络时代的快速发展,人们的日常生活同互联网的关系日益密切。人们习惯在网络中倾述自己的看法,表达自身情感以及思想,这使得互联网上出现了非常多的短文本信息。利用自然语言情感分析技术来处理这些短文本信息,从而可以获取到用户们的情感倾向。这些情感信息对社会舆情分析,商品销售与改进等方面都有着很大的价值。而本文面向中文短文本,针对商品评论数据,从基于机器学习和基于深度学习两个方面出发进行中文短文本情感分析研究。在基于机器学习的短文本情感分析研究工作中,本文分别使用朴素贝叶斯和支持向量机算法构建情感分析模型。为了提升模型的情感分析性能,本文在情感分析流程中的文本向量生成环节,提出使用两种改进型方法来生成文本向量。其分别为使用改进的卡方统计量进行特征项选取后并进行加权来得到文本向量,以及使用加权词向量的方法来得到文本向量。通过设计实验对各个模型进行对比,实验结果表明本文所使用的两种改进型方法均对模型在情感分析性能提升方面有一定的作用。其中使用改进的卡方统计量结合加权生成文本向量的方法对模型情感分析准确率的提升作用更大。在基于深度学习的短文本情感分析研究工作中,本文提出使用基于注意力机制的双向长短期记忆神经网络(AM-BLSTM)模型来进行短文本情感分析。在该模型中,长短期记忆神经网络(LSTM)解决了普通循环神经网络(RNN)在训练数据时出现梯度溃散以及无法长距离依赖的问题,双向长短期记忆神经网络(BLSTM)则对LSTM模型只能从单向获取信息的缺陷进行了改进,而注意力机制模型的引入使得AM-BLSTM模型能够对句中的情感词汇给与更多的关注,从而更好的进行情感倾向性的判断。通过分别与LSTM模型,BLSTM模型进行短文本情感分析实验对比,结果表明本文所构建的AM-BLSTM模型能够有效提高情感分析的准确率。此外在基于机器学习和基于深度学习的情感分析实验中,本文针对会影响实验结果的部分重要参数进行了多组实验对比,以此研究这些参数对模型结果的影响,从而使得模型的情感分析性能达到最优。最后对本文构建的包括机器学习以及深度学习在内所有模型进行情感分析性能对比,得出AM-BLSTM模型表现最佳,并对其模型搭建系统进行展示。