论文部分内容阅读
随着互联网的迅猛发展,网购已成为人们日常生活中不可分割的一部分,互联网商品评论数量也呈指数增长。挖掘这些评论的情感倾向可以帮助消费者快速地确定购买意向,同时也可以帮助卖家了解消费者对商品的满意程度,分析出商品的优势和劣势,做出销售决策。但是面对如此海量的商品评论信息,仅靠人工分析获取评论的情感倾向费时费力且带有主观性,因此如何对海量的商品评论进行自动化地情感分析,具有重要的研究意义。本文主要从两个方面对商品评论情感分类进行研究:粗粒度的商品评论情感分类和细粒度的商品评论属性情感分类,具体创新成果如下:(1)提出基于LSTM的双向GRU的商品评论情感分类方法。针对机器学习方法解决情感分类问题时是基于浅层特征,而且分类器性能有限的问题,本文利用Word2vec构建深层学习特征,分类器模型选用基于递归神经网络的LSTM模型,可以记住序列前面的信息,而且解决了长时依赖、梯度爆炸问题。然后针对该模型只能捕获上文特征信息的问题提出可以捕获上下文特征信息的双向GRU模型,实验结果表明:LSTM模型仅靠模型自身其分类准确率就达到了90.03%,与机器学习方法表现最好的SVM模型相比提高了8.9%,而且双向GRU算法又将准确率由90.03%提高到了92.85%。(2)提出基于大规模情感词典和双向GRU相结合的商品评论情感分类方法。针对双向GRU模型需要人工进行标注,存在领域依赖性、个人主观性以及浪费人力的不足,提出基于大规模情感词典和双向GRU相结合的改进算法。实验结果表明:将两者相结合的改进算法得到了93.96%的准确率,在双向GRU模型的基础上提高了1.11%,与大概摸情感词典和SVM相结合的算法相比提高了5.33%。(3)提出基于SC-LDA模型的属性和情感词抽取方法。针对目前的一些改进型主题模型对于低频同义属性词和情感词的提取率不高的缺陷,本文将语义约束引入到标准LDA模型中,提出了SC-LDA模型,提高了主题词语的识别度和区分度及它们之间关联关系的提取率。实验结果表明:该模型将正确率提高到83.61%,与ASUM模型相比提高了12.67%。(4)提出基于SCEB-LDA模型的商品评论属性情感分类方法。针对目前的一些改进型主题模型存在主题属性的内聚度和区分度不高、属性和情感词的语义相关性识别度不高以及主题对情感的语义理解不明晰的问题,本文将语义约束和情感分配约束引入到标准LDA模型中,提出了SCEB-LDA模型,实验结果表明:该模型将正确率提高到82.6%,与HASM模型相比提高了3.66%。