基于数据分析角度论述游客目的地印象 基于数据分析角度论述游客目的地印象

来源 :电子乐园·上旬刊 | 被引量 : 0次 | 上传用户:mengxianshan
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读


摘要:本文旨在利用数据分析对游客对景区与酒店的评价进行数据挖掘,由于游客满意度与目的地美誉度紧密相关,游客满意度越高,目的地美誉度就越大。找出其中稳定客源、取得竞争优势、吸引游客到访消费等的主要原因。这对于旅游企业科学监管、资源优化配置以及市场持续开拓具有长远而积极的作用。

关键词:数据分析;jieba分词; 停用词; 均方误差; 编辑距离

一、问题重述

提升景区及酒店等旅游目的地美誉度是各地文旅主管部门和旅游相关企业非常重视和 关注的工作,涉及到如何稳定客源、取得竞争优势、吸引游客到访消费等重要事项。游客满意度与目的地美誉度紧密相关,游客满意度越高,目的地美誉度就越大。

二、景区及酒店印象分析

(一)使用方法

我们将会用到jieba分词的方法,有三种分词模式

(1) 精确模式:试图将句子最精确地切开,适合文本分析;

(2) 全模式:把句子中所有的可以成词的词语都扫描出来, 速度非常快,但是不能解决歧义问题;

(3) 搜索引擎模式:在精确模式的基础上,对长词再次切分,提高召回率,适合用于搜索引擎分词。

(二)问题解决

1.目的地TOP20热门词

本节使用jieba模块中的精准模式对网评文本进行分词,再使用中文常用停用词(中文停用词表“cn_stopwords.txt”,哈工大停用词表“hit_stopwords.txt”,百度停用词表“baidu_stopword.txt”,四川大学机器智能实验室停用词库“scu_stopwords.txt”)表对文本进行过滤,遍历所有词语,每出现一次加一,再将对应键值转换为列表,根据词语出现的次数进行从到大到小进行排列,将排名前二十的热词及热度输出。

2. 每家酒店和景区的印象词云表

我们将景区评论及酒店评论使用JupyterNotebook将其转换为矩阵,新建一个空列表list1,创建一个循环,将矩阵中第一列一样的评论依此增加如list1中,每次添加完一次之后对list1进行分词及过滤之后将前20个数据保存入对应名称的后缀为.csv的文件中。

总结:由于数据处理对象为景区评论和酒店评论,我们选用停用词表时可以选用针对性较强的,可以过滤更多无关词语。分词方法有很多,可以针对不同情况使用。待分词的字符串可以是 unicode 或 UTF-8 字符串、GBK 字符串。注意:不建议直接输入 GBK 字符串,可能无法预料地错误解码成 UTF-8

三、景区及酒店的综合评价

1. 数学模型及相应算法

我们对问题一中的热度数据对景区及酒店的服务、位置、设施、卫生、性价比进行分析,在列表中卫生热度只有1931,而与其近似的干净则占热度3459,所以我们决定用干净的热度来表示卫生的热度。以及列表中性价比的热度为2237,与其近似的便宜热度为3190,及免费2360,考虑到有可能会有一句网评中都包含了这几个词语,所以我们决定用热度较高的便宜来表示性价比的热度。然后对这五个求权重得到下表:

提取出这五个的权重生成5×1的矩阵mat3,mat3则为评分权重矩阵。再将酒店评分提取出来生成5×50的矩阵mat1,将景区评分提取出来生成5×50的矩阵mat2。

用x1=np.dot(mat1,mat3)求得对酒店评分的预测矩阵,x2= np.dot(mat2,mat3)求得对景区的预测矩阵,在excel表中提取出酒店评分真实值y1及景区评分真实值y2。然后使用预测矩阵x减去真实矩阵y,分别得到差值矩阵d1,d2。

然后使用预测矩阵x减去真实矩阵y,分别得到差值矩阵d1,d2。

最后使用均方误差进行模型判断:

MSE:

计算酒店评分的均方误差:np.dot(np.transpose(d1),d1)/50

计算景区评分的均方误差:np.dot(np.transpose(d2),d2)/50

计算酒店加景区评分的均方误差:

(np.dot(np.transpose(d2),d2)+np.dot(np.transpose(d1),d1))/100

得到MSE(酒店)≈0.0098

MSE(景区)≈ 0.0121

MSE(酒店+景区)≈ 0.0109

当MSE越小,我们建立的模型越好。

四、网评文本的有效性分析

出于各种原因,网络评论常常出现内容不相关、简单复制修改和无有效内容等现象,为了解决这个问题,我们使用了计算编輯距离的方法。

1.算法

编辑距离,又称Levenshtein距离(也叫做Edit Distance),是指两个字串之间,由一个转成另一个所需的最少编辑操作次数,如果它们的距离越大,说明它们越是不同。许可的编辑操作包括将一个字符替换成另一个字符,插入一个字符,删除一个字符。

代码实现:

Levenshtein.distance(’abc’,’cba’)

Levenshtein.distance(’kitten’,’sitting’)

2.问题解决

通过计算编辑距离,我们剔除距离小于0.5的数据,使得数据更加简洁,提高数据有效性。

在执行过程中,为了减少计算,我们首先对数据进行了清洗,主要用到了去停用词,结巴精准分词等方法,然后计算编辑距离。但是通过对比较结果进行分析,我们发现距离普遍较小,即相关性普遍较大,无法进行有效剔除。因此我们放弃了此方法,选择分析文本。

我们将每个文本与后面的文本进行比较,得到对应的相关性(代码用的是1-aa,因此,值越靠近1相关性越强):

我们将这些筛选出的相关度高的数据进行剔除,就整理出来了一个更有效的数据。

其他文献
摘要:随着我国科学技术的发展,电力系统高压输电线路施工技术也在不断地创新。基于此本文将针对电力系统高压输电线路施工过程进行分析,进而针对悬浮抱杆组立杆塔技术、飞行器悬空展放导引绳技术、挂胶放线滑车放置导线技术以及八分裂子导线同步展放技术进行了阐述,希望可以促进人们的理解与认识。关键词:电力系统;高压输电线路施工;技术管理1 高压输电线路施工技术高压输电线路施工技术的应用,必须从基础工程施工技术、杆塔工程施工技术、架线工程施工技术等方面着手展开研究。1.1 高压输电线路基础工程施工技术高压输电线路基础工程是
期刊
摘要:小学是学生接触数学教育的起点,对学生未来的学习有着重要的作用,所以在现代小学数学教学中,要重新定义教学目标,不再一味的强调学生对理论知识的掌握,而是以此为基础,将培养学生的综合能力作为主要教学目标,毕竟学生们掌握的数学知识在来源于生活的同时也应该应用于生活。本文就小学数学教学生活化模式及实践方法做简要探讨。关键词:小学数学;生活化教学;实践方法在现代小学数学教学中,可以从教学现状得知传统教学已经不再适用,所以要通过生活化教学模式,促进小学数学教学的发展。小学数学教师也应该充分意识到生活化教学对学生数
期刊
近年来,随着在国际和中国打击毒品犯罪力度的持续增强的背景下,中国境内毒品犯罪的嚣张气焰得到了一定程度的遏制。但是非法分子为了继续打开中国地区内的犯罪消费市场,把目光瞄向了新精神活性物质,以合成大麻素和芬太尼为代表的新精神活性物质比含有以吗啡为代表的传统药物与海洛因为代表的新型毒品具有更强的致幻作用和神经刺激兴奋作用,严重损害人类身体健康,导致精神疾病,严重危害社会与公共卫生安全。新精神活性物质相对
学位
对已确认事实的内涵进行辨析,明确已确认事实的概念,定位清楚预决力的性质,剖析已确认事实产生预决力背后的原理,分析研究已确认事实预决力的必要性,通过与我国已确认事实预决力相似的域外制度的比较考察(重点介绍了美国的争点排除规则和日本的“争点效”理论),分析借鉴这些制度。分析了该制度的立法现状,虽然我国民事诉讼法未明确规定已确认事实的预决力问题,但民事诉讼法的相关司法解释却在一定程度上承认了已确认事实预
学位
随着大数据的兴起,各行业充分利用数据带来的潜在价值创造更多价值。对于公安机关而言,将大数据运用于处理案件并形成相对固定的侦查模式是对传统侦查模式的新挑战。文章通过对国内外学者关于侦查模式,特别是传统侦查模式相关概念的梳理总结,对传统侦查模式与大数据侦查模式予以界定和厘清,并在此基础上分析两种模式各自的特点,并深入探讨关于两种模式下的证明力及证据能力的相关问题。最后结合侦查思维,提出具有实际意义的新
摘要:效率是教学始终在追求的目标,而在新课程改革下针对教学效率又提出了新的看法。在传统教学认知中,效率往往指的是教学任务完成所消耗的时间,所追求的是在最短的时间内实现知识传递,并关注学生对知识的记忆效果。但若从现代教育理念来看,这样一种教学并不是真正的效率。在知识传递中,学生了解了知识、接受了知识从来不是终点。真正的教育应该让学生学会如何运用知识,到达融会贯通,举一反三的效果。而在数学教学中,更需要关注学生的数学思维养成和数学能力养成,方可在真正意义上达到教学的效率、基于此,高效课堂的建立也成为了当前小学
期刊
公司制度是一把双刃剑,在为社会创造财富的同时,也带来了一系列的社会问题。社会责任理论正是在这样的实践背景下产生并获得不断发展的。虽然该理论目前尚存在着诸多争议,但是受到越来越多国家的立法和司法的承认已经是不争的事实和趋势,我国2006年开始实施的新《公司法》将其明确写入其中就是最好的例证,但该制度在我国没有真正建立起来,其中有些部分仍有待完善。基于上述原因,本文站在倡导公司社会责任的立场上,以完善
学位
公民所享有的遗嘱自由的权利,体现了法律对公民的财产所有权给予了全面的保护。同时遗嘱自由也体现了当事人意思自治之民法价值理念。但自由并不取决于当事人个人的意志,而是对普遍性的认同和个别任意的超越,是一种有限制的自由。这种限制包括基于社会生活条件的限制,为了社会及他人利益的限制,为了各项自由协调的限制。  我国《继承法》对遗嘱自由也是有限制的,主要体现在《继承法》的19条,该条规定:“遗嘱应当对缺乏劳
摘要:体育教学的兴盛发展,是素质教育理念下的产物,是实现新课改全面实施不可或缺的课程。在当前的社会,如何让学生在老师的指导和组织下,有效的进行体育活动,在体育课中运用游戏将会是适合小学生心理、生理特征最好的教学方法。本文将在自身教学的实践基础上,浅谈游戏在小学体育教学中的作用。旨在通过游戏在体育课堂中的运用和没有游戏的体育课进行对比,观察发现学生在课堂中的表现,优化体育课堂教学手段和推进体育教学的发展。关键词:小学体育教学;游戏;素质教育从以往的教学经验来看,小学生在体育课中都愿意做游戏。对于其他体育练习
期刊
摘要:随着当前社会经济的快速发展,城镇化的建设步伐也在不断加快,各行各业对于电能资源的需求也是越来越大,民众生活用电数量的剧增,为电力企业带来了较大的生产压力。输配电线路问题,不仅阻碍了供电系统的正常运作,同时也会对整个城市的供电产生影响。本文通过对电力输配电线路的运行维护以及故障排除技术展开深入的探究,希望能够起到一些积极的参考作用。关键词:电力;输配电线路;运行维护;故障排除在电力系统中,输配电线路是极为重要的组成部分,对其进行维护、检修工作,将会对配电线路的稳定运行,产生较为直接的影响。为了确保线路
期刊