论文部分内容阅读
电影作为娱乐服务业的重要领域,丰富了人们的生活,为人们提供高质量的精神食量的同时,也逐步成为了我国经济市场中的一个重要部分。然而我国电影行业起步晚,发展慢,国内市场的营销机制并不完善,对电影票房进行预测可以帮助影院提前布局,增加票房收入,因此论文研究如何利用影评预测电影票房。本文主要内容如下:(1)本文从电影票房影响因子的研究和电影票房预测模型的研究两个方面,详细地介绍了电影票房预测的国内外的发展,并介绍了现在主流的电影票房预测方法。(2)针对CHI算法可能会产生多余无关特征问题,本文提出了一种CHI-SVD的特征提取算法,该算法在CHI提取出的特征的基础上用SVD算法进行降维处理,从而能够保留原始特征的基础上再降维处理,能够有效地减少时间成本。通过实验发现,CHI-SVD算法性能比CHI算法要好。(3)为了提高情感词典的质量,从而更好的进行情感分类,本文将基于情感词典和基于统计信息的情感分类方法相结合,减小情感分类会被情感词典构造所影响带来的缺点,从而使得情感分类的效果更好。(4)为了进一步对电影票房进行准确预测,本文提出了一种融合SVR和多元线性回归算法的随机森林回归算法,并将情感特征和观众对于电影的评分相结合,引入到本文提出的随机森林算法中。此外,本文还将电影相较于同类型其他电影用户喜欢程度的排名相结合代替难以量化的电影类型特征,引入到本文提出的随机森林算法中。通过实验验证了该随机森林回归算法的有效性。