论文部分内容阅读
随着社交网络的不断发展,用户迫切需要一种简便快捷的信息发布和获取方式,微博的出现也就成为了必然的趋势。微博的实时性和便捷性的特点使得其迅速发展,每天都会产生大量有实用价值的文本信息,其中就有对当前生活中热点事件的描述和评论。微博平台常常会将一些热门的话题或事件在首页上罗列出来,推荐给用户,但是这些话题往往只列出最近几天的少量事件,没有实时的给出每天更多的热点事件。这些事件往往不能满足用户对新兴事件的需求,用户如果要找到自己感兴趣的新兴事件,就必须自己寻找相关的微博帖子阅读,在这个信息爆炸的互联网时代,这必然带来很大的不便。当前从微博中准确高效地挖掘出正在发生的热点事件是近年来研究的热点。本文就微博中的新兴热点事件检测做了研究,微博中的新兴热点检测具有实用意义,某些新兴事件,如自然灾害、传染疾病和危害巨大的袭击等事件如果能在早期就检测出来可以有效的帮助政府或者个人及时预防和处理相关事件,从而尽量减少不必要的伤害和损失。论文综合考虑微博用户的粉丝数量和微博本身的转发、评论次数计算每条微博的影响力,从而提出一种基于影响力的微博新兴热点事件检测方法(Influence-Based Emerging Hotspot Event Detection,IEED)。该方法首先对微博数据进行预处理,得到特征向量;随后运用层次聚类将微博文本聚类为事件,得到候选事件集合,聚类过程中运用滑动窗口控制数据流入;最后运用微博影响力以及事件发布微博的数量计算事件的新兴热点评分,并提取出事件中的关键词构成事件摘要,将评分top-k的新兴热点事件推荐给用户。通过运用现实生活中的新浪微博数据作为实验数据集来测试论文提出的算法,实验结果表明,基于影响力的微博新兴热点事件检测方法(IEED)能在早期高效地检测出微博中的新兴热点事件,并准确给出事件摘要,具备一定的实际应用价值。