论文部分内容阅读
在“大数据”时代背景下,媒体内容呈现个性化、智能化、社交化的趋势,社交网络上关于影视媒体的海量话题与讨论蕴含着无可估量的价值。基于此,本文针对海量异构数据采集、数据清洗与存储、机器学习、自然语言处理等关键技术展开研究,设计与实现媒体网络影响力系统,通过对大数据的采集、整合与分析,考察影视媒体在社交网络中的关注度与口碑。本文研究内容主要包括: (1)海量异构数据采集。设计与实现可配置的聚焦网络爬虫框架,基于该框架可自定义构建一个采集精确、可控性强的聚焦网络爬虫;改进传统聚焦爬虫的工作流程,实现DeepWeb表单自动提交以及Deep Web数据抓取。 (2)数据清洗与存储。通过文本预处理,解决中英文编码不一致问题,并利用正则表达式过滤网页标签及无关内容;搭建与部署分布式MySQL存储环境,解决单机数据存储在规模和性能上的瓶颈。 (3)运用机器学习技术分析社交网络对影视票房的影响并预测票房。基于多元线性回归模型,在引入传统票房预测参数的基础上,加入影视上映前微博讨论量这一参数对样本进行拟合,并分别针对国产电影与进口电影建模,在前人工作基础上改进回归模型拟合度,之后采用多分类逻辑回归模型对票房分类进行预测,取得了较好结果; (4)运用自然语言处理技术对影评文本做情感分类并生成情感文摘。基于规则提取主题相关特征,针对影评文本特点构造情感词库,并基于该词典对语料进行情感分类,最后按照不同主题与情感倾向生成情感文摘。相较于传统机器学习方法,这一方法流程实现简单,算法执行速度快,有很高的实际使用价值。