层次化在线话题热度算法

来源 :名城绘 | 被引量 : 0次 | 上传用户:chenyanchendan
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  摘要:由于网络数据覆盖领域广、信息量大的特征,通过在线话题聚类得到的话题数量仍然繁多,并且话题重要程度也不同,其中大多数话题都无关紧要。那些涉及敏感问题,具有爆发力的话题往往决定了整个网络舆情的发展趋势,才是需要研究的重点。通过对话题热度的计算可以有效地发现网络舆情的热点话题。
  关键词:话题;聚类;热度
  就目前对话题热度计算的研究,主要都是从话题的媒体关注度和用户关注度这两方面考虑的。话题的媒体关注度是从舆情数据的发送方来考察话题的热度,其主要包括话题的报道频率和分布率等信息。而话题的用户关注度则是从舆情数据的接收方来考察话题的热度,其主要包括浏览报道的次数、评论的次数等一些用户的行为信息。一般来说,网络应用上的信息发送方对热点话题的形成起到了主导作用,因为只有网络上出现了一个新的报道,才会有用户去浏览、评论,引发该报道的关注,从而形成有大规模报道的话题,使该话题成为热点话题。而对于论坛、微博一些应用,信息的接收方在网络传播中占到主导地位,用户的转发、评论使得话题传播越来越迅速,因此用户关注度对话题的热度影响将更大。本文根据层次化在线话题聚类的方法,从媒体关注度来评估新闻话题热度,从媒体关注度和用户关注度来评估论坛和微博话题热度。
  1话题热度特征
  通过对一般热点话题的考察与分析,并结合网络舆情传播模式的特点,一个话题在成为热点的过程中一般都具备如下特征:
  (1)在话题发生的初期,话题受关注程度并不高,相关的报道数量较少,用户浏览数回复数也少,有的甚至不被人注意。
  (2)在某个时间段内,该话题被广泛关注,网络上出现大量的相关报道,报道的数量迅速上升,用户的关注度也迅速上升,網络用户大量浏览回复转发相关内容。
  (3)在引起广泛关注后,有关该话题的报道会大量转载,甚至与话题相关的人、事件都会一一被报道,相关网站或媒体也会持续跟进的进行大量的报道,话题在此时是整个话题生命周期最热的时候。
  (4)热度在达到一定高度之后,由于媒和网民的官方关注,热度会持续一段时间的高峰值,然随着关注的减少,热度开始下降,话题逐渐消失在关注视野中,最后开始消亡。
  这整个过程就是一个热点话题的生命周期,从生长到发展,从巅峰到最后的消亡,而话题的热度也会伴随着这些过程进行演化。
  2话题热度量化
  基于热点话题的上述特征分别用下面几个不同的参数进行刻画[1][2][3],其中话题的持续时间是指该话题有报道的天数:
  1、报道数rn(report number):表示话题在持续时间内的报道数;2、持续天数rd(report days):话题持续时间的天数;3、点击数hn(hitting number):表示论坛话题的点击数;4、回帖数an(answer number):表示论坛话题的回帖数;5、转发数fn(forwarding number):表示微博话题的转发数;6、评论数cn(comment number):表示微博话题的回复数;
  报道数和持续天数都属于媒体关注度范畴,而点击数、回帖数、转发数和评论数属于网民关注度范畴。
  因为报道数和持续天数都和话题的关注度成正比,并且话题的关注度还和话题的分布率成正比,所以一定时间内站点上话题的媒体关注度用下述公式来定量描述:
  式(3.10)
  其中,rn是该话题在持续时间内的报道的文档的数量,RN是在这段时间里所有话题报道的文档的总数,N是这段时间里出现还在活跃的话题的数目,前一个分式的比值反映的正是相对的话题的文档频率。rd是该话题持续被关注的天数,而RD是所有话题被关注的天数的和,后一个分式衡量的是话题持续的天数和每个话题平均持续天数的相对比值。
  另外,对于论坛来说网民的一次点击浏览和一次回帖评论所表现的关注程度是不同的,网民进行回复帖子比网民只是点击浏览更加值得关注。定义论坛网民关注度衡量公式为:
  式(3.11)
  由于论坛中网民对话题的回帖比只浏览更表现网民对其的关心,因此对进行了倍加权,取对数是为了使其值在(0,1)之间。
  而对于微博来说,微博独特的用户浏览模式不能将用户的浏览行为记录下来,能够记录下来的用户行为只有转发或者回复。对于一个用户来说,转发一条微博所能表现的关注程度远远没有回复此条微博来的强烈。所以定义微博网民关注度衡量公式为:
  式(3.12)
  由于微博中网民对微博的评论比转发更表现网民对其的关心,因此的值小于0.5,式子前面乘了0.5是因为使关注度的其值在(0,1)之间。
  对于所有的网民关注度,通过调节参数使网民关注度和媒体关注度在同一个数量级并具有不同的权重。因而,综合所有网络应用,本文定义话题的热度计算公式为:
  式(3.13)
  在实际情况下,对于新闻数据而言,话题的热度只有媒体关注度,而对于论坛和微博数据,则既有媒体关注度,又有网民关注度,而且网民关注度更具有参考价值。
  3 结束语
  层次化的话题聚类在每一批的文本话题聚类完成,话题得到调整后,将从新对每一个话题进行热度计算,并根据其热度值进行排名,将热度值排名靠前的话题作为热点话题。不难看出,随着时间的往前推移,文档数多的话题一直可以保持较高的热度,话题报道天数多的时间也可以一直保持较高的热度。但是此公式考察话题的热度演化有缺陷,而且较难发现话题生命周期初期文档数量相对较少的突发热点话题,未来可考虑基于衰减因子的热度演化来分析热点话题进行研究。
  参考文献:
  [1] 殷风景,肖卫东,葛斌,李芳芳.一种面向网络话题发现的增量文本聚类算法[J].计算机应用研究,2011.1:54-57
  [2] 何婷婷,朱惹,张勇,任函.基于词语属性的计算机辅助获取流行词语研究[J].中文信息学报,2006,6(06):38-45.
  [3] Tingting He,Guozhong Qu,Xinhui Tu,Yong Zhang,Han Ren.Semi-automatic Hot Event Detection.AMDA 2006:1008-1016.
  (作者单位:中国华艺广播公司)
其他文献
浅议精神扶贫●杨海清老区贫困地区要实现八七扶贫攻坚计划目标,在本世纪末基本消除绝对贫困现象,离不开精神扶贫的巨大推动作用。精神扶贫不是一句口号,它有深刻的内涵。精神扶
努力探索老建扶贫的新路子中共江西省安远县委安远县人民政府安远县地处江西南端,是个山区贫困县。10多年来,我们一任为一任打基础,坚持"开发起步,开放搞活,扶持支柱,加速脱贫"的指导思
本文运用辩证唯物主义的哲学理论,从工程管理“人、料、机、法、环”五个要素分别阐述如何进行EPC模式下监理管理工作,对类似项目监理工作有一定借鉴作用。
穷山沟里飞出了金凤凰余俊华在海拔一千多米的灵山仙女峰西北麓,有一块面积55.6平方公里的红色土地一上饶县茗洋乡。在那如火如荼的土地革命时期,这里是方志敏和红十军战斗过的地方
随着现代人们建筑节能意识的不断增强,建筑保温材料的应用得到较快发展。建筑保温材料有多种,其质量影响到建筑工程的整体质量,因此需要通过检测确保保温材料质量。基于此,本
强化基层人行思想政治工作的思考□钟孝平随着我国市场经济的不断发展、金融体制改革的深化,对金融思想政治工作提出了新的要求。强化新时期基层人行的思想政治工作,充分发挥职
摘要:住房公积金贷款是国内职工购房贷款的重要资金来源,几年来,由于房价提升,购房需求提高,也使得公积金贷款的需求有了明显的增高,一些矛盾也暴露了出来。  关键词:我国住房公积金贷款;流程;存在的矛盾  如何合理地安排住房公积金贷款流程,对于国家经济调控而言十分重要,本文多方面分析了当前住房公积金贷款流程上的矛盾,然后提出改善公积金贷款流程的方法。  一、我国住房公积金贷款流程存在的矛盾  1.1
在现阶段的时代背景之下,相关企业应该将绿色施工理念全面应用到施工操作当中,使其逐渐渗透到各个施工环节中,提高施工总体效益。绿色施工理念的融入可以有效的降低施工过程
国内社会发展建设中,水利工程建设占据了关键的地位。水利工程建设会对当地原有的河流情况造成一定的影响,使得工程附近的生态环境受到干扰。采取积极有效的措施,降低工程对