基于Stacking的酒店评论情感分析研究

来源 :重庆大学 | 被引量 : 0次 | 上传用户:qweewqqwe123
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网的迅速发展,人们经常在网上预订酒店。但是网络上的酒店评论良莠不齐,面对五花八门的信息时,仅仅依靠人工浏览是费时且费力的。通过使用机器学习领域的某些方法,对大量的酒店评论信息进行情感分析,这不仅可以极大的方便消费者网上预订酒店,而且对于酒店商家和互联网平台来说也是至关重要的。对于酒店评论的情感分析,常用的TF-IDF加权方法只片面的关注了特征的词频和文档数。同时,在分类过程中单一的机器学习模型也往往由于某种缺陷,影响文本的分类结果。因此,本文在现有基础上改进了传统的TF-IDF加权方法,提出了一种基于集成的情感分类模型。本文的主要工作如下:(1)对酒店评论文本进行预处理。首先是简单的清理酒店评论文本,包括去重、去掉无意义的字符、正确划分评论的所属类别等。然后为了在酒店评论的情感分析中,准确区分评论中的情感极性词,构建了由通用的已有词典和人工抽取的酒店情感词组成的情感词典。最后针对分词中存在着情感词识别和新词识别这两个问题,引入自定义词典对评论文本进行了分词操作。(2)使用Word2Vec对预处理后的酒店评论进行特征提取,得到文本的特征向量。由于传统的TF-IDF加权方法忽略了特征和类别之间的关联程度以及情感词对情感分类的重要影响,本文提出了一种改进的TF-IDF加权方法,该方法不仅充分的考虑了特征在类间和类内的分布情况,同时还适当的增加了情感特征在加权时的权重值。最后通过实验对比和分析可知,改进后的TF-IDF加权方法比改进前的TF-IDF加权方法查准率和F值都要高。(3)使用多种机器学习算法对酒店评论文本进行情感分析,根据分类结果选择随机森林、SVM和KNN作为Stacking中的基分类器。然而在基于Stacking组合的实验过程中发现,集成的分类结果相对于基分类器中表现最好的随机森林来说,准确率和F值都有所下降。针对这种情况,本文对基分类器中表现相对较差的SVM和KNN进行了分类性能的提升。首先使用改进的Adaboost集成方法来增强SVM的分类效果。然后比较KNN的两种权重分配方式,并通过Random Subspace集成KNN,解决KNN的维度灾难问题。最后通过对比Stacking中基分类器提升前后的实验结果,验证了本文提出的情感分类模型的有效性。
其他文献
清道光十七年(公元1837年),广东鹤山人王泽邦在广州十三行路靖远街开设了一间“王老吉凉茶铺”。他岂能料到,171年之后,那一碗凉茶居然在中国家喻户晓,而且销得红红火火。  今年5月18日,中央电视台汶川地震赈灾义演晚会上,演艺明星、企业家和公司纷纷捐款,向地震灾区人民献爱心。从几十万到数百万,再到数千万,捐款数额一路攀升。就在晚会临近结束之际,王老吉举牌豪捐一个亿,这让晚会现场和电视机前的观众心
9月6日下午,山东黄金集团与招商银行银企战略合作协议签约仪工弋在济南举行。招商银行行长马蔚华、副行长王庆彬,山东省国资委主任诨成义,山东黄金集团董事长王建华,副董事长孙建
通过对陕西安康月河川道城郊农业的调查,了解其发展现状、特点及存在问题,提出了川道城郊农业的发展思路、对策以及确保川道城郊农业产业发展的保障措施,使安康月河川道城郊农业
目的对血浆纤维蛋白原(fibrinogen,FIB)与胆道梗阻的关系进行初步探讨。方法113例胆道疾病患者分成四组:A胆道结石组、B胆道结石+胆道感染组、C胆道结石+胆道感染+胆道梗阻组、D壶腹
以生鲜猪肉为包装对象,研究了用4种不同氧气阻隔性的塑料包装材料进行直接包装(猪肉装进包装袋后直接封口)和真空包装情况下,猪肉在保存期间的颜色变化.将材料的氧气阻隔性进
期刊
目的探讨三孔法腹腔镜胆囊切除术治疗胆囊息肉样病变(PLG)的临床效果。方法行三孔法腹腔镜胆囊切除术的46例PLG患者为观察组,取采用四孔法行胆囊切除术的41例患者为对照组。观察
老河口市境内316国道、302省道全长71公里,沿线有45个村、179个村民小组、3997户、16104人。今年7月以来,我市把创建百里文明走廊作为新农村建设和“文明湖北”建设活动的突破
"猪高热病"是由高致病性蓝耳病等病毒和细菌、寄生虫等多病原混合或继发感染引起的急性、热性,高致病性和致死性的传染性疾病.本文介绍了"猪高热病"的流行特点及防制策略.
试图通过借鉴企业CI的经验,倡导现代化高校更新与改造过程中启动校园CI,力图为缺乏长远考虑的校园建设提供一条不可多得的创新之路.