论文部分内容阅读
随着互联网的不断发展,学者对网络口碑的研究不断深入,在实践中越来越多的消费者查阅网络口碑辅助其完成消费决策。电影行业中,观众有观影后撰写影评并在网络上分享的习惯,文本长度和质量俱佳,影评作为消费者对电影的口碑是理想的网络口碑分析对象。同时对于电影作品来说,高票房佳作频出,但是影片叫好不叫座、叫座不叫好的现状仍然存在。针对这一问题,本文通过文本挖掘方式提取电影网络口碑特征。利用口碑文本挖掘的结果,完成对电影评分和票房的分类,构建电影口碑与电影评分和票房之间的关系。本文首先爬虫获取14万余条电影评论,将word2vec算法与领域内专业知识结合,提出了一种效率优于完全依赖专家知识构建词表的方式。其次,利用构建的关键词表对分词处理后的网络口碑打分,完成口碑文本在电影要素赏析数量、效价和观众情感唤起三方面的定量转换,将构建的变量作为机器学习的特征,验证电影的评分和票房表现。最后,利用自然语言处理后的口碑文本特征,构建了口碑文本和电影评分和票房三者之间的定量关系。结果显示,首先,通过文本挖掘对口碑构建的变量,相较于过去仅通过数量和效价构建的变量,能够更加有效的预测电影的评分和票房表现;其次,在拍摄和情感唤起口碑数量正向影响电影评分,演员口碑数量和故事口碑的负效价负向影响电影评分,故事和情感唤起口碑数量以及演员口碑负效价正向影响电影票房。本文在网络口碑研究的基础上,结合机器学习算法,通过词向量编码构建词表降低了专业领域的文本挖掘难度。为口碑内容的研究做出了积极的探索,拓宽了 口碑内容研究的维度,构建了电影网络口碑文本对电影票房和评分之间的关系。