论文部分内容阅读
随着互联网的迅速发展,人们经常在网上预订酒店。但是网络上的酒店评论良莠不齐,面对五花八门的信息时,仅仅依靠人工浏览是费时且费力的。通过使用机器学习领域的某些方法,对大量的酒店评论信息进行情感分析,这不仅可以极大的方便消费者网上预订酒店,而且对于酒店商家和互联网平台来说也是至关重要的。对于酒店评论的情感分析,常用的TF-IDF加权方法只片面的关注了特征的词频和文档数。同时,在分类过程中单一的机器学习模型也往往由于某种缺陷,影响文本的分类结果。因此,本文在现有基础上改进了传统的TF-IDF加权方法,提出了一种基于集成的情感分类模型。本文的主要工作如下:(1)对酒店评论文本进行预处理。首先是简单的清理酒店评论文本,包括去重、去掉无意义的字符、正确划分评论的所属类别等。然后为了在酒店评论的情感分析中,准确区分评论中的情感极性词,构建了由通用的已有词典和人工抽取的酒店情感词组成的情感词典。最后针对分词中存在着情感词识别和新词识别这两个问题,引入自定义词典对评论文本进行了分词操作。(2)使用Word2Vec对预处理后的酒店评论进行特征提取,得到文本的特征向量。由于传统的TF-IDF加权方法忽略了特征和类别之间的关联程度以及情感词对情感分类的重要影响,本文提出了一种改进的TF-IDF加权方法,该方法不仅充分的考虑了特征在类间和类内的分布情况,同时还适当的增加了情感特征在加权时的权重值。最后通过实验对比和分析可知,改进后的TF-IDF加权方法比改进前的TF-IDF加权方法查准率和F值都要高。(3)使用多种机器学习算法对酒店评论文本进行情感分析,根据分类结果选择随机森林、SVM和KNN作为Stacking中的基分类器。然而在基于Stacking组合的实验过程中发现,集成的分类结果相对于基分类器中表现最好的随机森林来说,准确率和F值都有所下降。针对这种情况,本文对基分类器中表现相对较差的SVM和KNN进行了分类性能的提升。首先使用改进的Adaboost集成方法来增强SVM的分类效果。然后比较KNN的两种权重分配方式,并通过Random Subspace集成KNN,解决KNN的维度灾难问题。最后通过对比Stacking中基分类器提升前后的实验结果,验证了本文提出的情感分类模型的有效性。