媒体网络影响力系统研究与实现

来源 :中国科学院大学 | 被引量 : 0次 | 上传用户:freshgrandpa
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在“大数据”时代背景下,媒体内容呈现个性化、智能化、社交化的趋势,社交网络上关于影视媒体的海量话题与讨论蕴含着无可估量的价值。基于此,本文针对海量异构数据采集、数据清洗与存储、机器学习、自然语言处理等关键技术展开研究,设计与实现媒体网络影响力系统,通过对大数据的采集、整合与分析,考察影视媒体在社交网络中的关注度与口碑。本文研究内容主要包括:  (1)海量异构数据采集。设计与实现可配置的聚焦网络爬虫框架,基于该框架可自定义构建一个采集精确、可控性强的聚焦网络爬虫;改进传统聚焦爬虫的工作流程,实现DeepWeb表单自动提交以及Deep Web数据抓取。  (2)数据清洗与存储。通过文本预处理,解决中英文编码不一致问题,并利用正则表达式过滤网页标签及无关内容;搭建与部署分布式MySQL存储环境,解决单机数据存储在规模和性能上的瓶颈。  (3)运用机器学习技术分析社交网络对影视票房的影响并预测票房。基于多元线性回归模型,在引入传统票房预测参数的基础上,加入影视上映前微博讨论量这一参数对样本进行拟合,并分别针对国产电影与进口电影建模,在前人工作基础上改进回归模型拟合度,之后采用多分类逻辑回归模型对票房分类进行预测,取得了较好结果;  (4)运用自然语言处理技术对影评文本做情感分类并生成情感文摘。基于规则提取主题相关特征,针对影评文本特点构造情感词库,并基于该词典对语料进行情感分类,最后按照不同主题与情感倾向生成情感文摘。相较于传统机器学习方法,这一方法流程实现简单,算法执行速度快,有很高的实际使用价值。
其他文献
随着网络技术的不断发展和社交媒体的流行,当前媒体社会进入到“自媒体”时代。在自媒体时代,人人都是信息的传播者以及推动事件发展的主要力量,这就使得网络信息传播速度更快,受
目前网络中急剧增加的服务以及新技术的采用,一方面满足应用的需求,但同时也增加了出现安全漏洞和网络攻击的机会,迫使不断增加和升级安全设备.安全系统遵循所谓的"木桶原理"
随着我国市场经济的发展,企业的生产模式向小批量、多品种发展,多样化和定制式的产品代替了标准产品.企业要满足客户个性化的需求,就需要大大缩短产品开发周期,而用手工方式
通过搜索引擎来查找所需要的信息,是当前人们在网上获取信息的重要手段之一。在信息检索领域,评价一个检索系统性能的优劣,不仅要看检索模型是否有效,更要考察检索系统对于不同的
高能物理离线数据处理作业主要分为CPU密集型和I/O密集型两种。传统计算集群采用计算资源和数据存储相分离的架构,大量的数据传输对网络I/O造成了很大压力;而运行在Hadoop之上
该文以高速入侵检测原型系统的设计和实现为工程背景,以建立实际有效的北大校园网高速网络入侵检测原型系统为目标,根据入侵检测系统的特点和对高速网络检测能力的不足,通过
该文首先介绍了离散化处理的发展现状,并且详细介绍了整体离散化算法.经过对它的分析,在其基础上提出了基于数据分区的整体离散化算法.基于数据分区的连续属性整体离散化与基
论文第一章简要介绍了工作流系统的基本概念及论文的工作背景;第二章系统地说明了工作流管理系统的一般结构及工作流管理联盟的工作流参考模型;第三章具体论述了青鸟工作流模
语义网技术是当前互联网技术研究的热点之一.其目标是开发一系列新的技术,改变现有互联网仅仅依靠文字信息来共享资源的模式,通过语义信息的共享,来实现网络信息服务的智能化
半导体技术的飞速发展使集成电路中器件密度急剧增加,频率不断提高,互连寄生效应已成为影响VLSI电路性能的主要因素。在GHz以上纳米数字与数-模电路中,为了高精度的时延分析,精细