基于消息流行度预测的微博客突发话题发现

来源 :中国科学院大学 | 被引量 : 0次 | 上传用户:yinmeng6112501
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来新型社交媒体微博客平台高速发展,已经逐渐成为人们分享、获取信息的主要方式。由于微博客平台用户量急剧增多,用户产生的数据总量呈现爆炸式增长,基于这些信息的突发话题发现面临新的挑战。话题模型、数据分类或聚类等传统方法,在新闻、博客等领域取得了不错的效果,然而微博客平台对消息内容长度的限制产生的短文本以及用户产生的宏大的实时信息流,限制了这些方法在该平台的应用。消息流行度预测能准确的发现信息流中包含重要话题的信息,但是无法克服短文本统计信息不足的问题,长微博包含大量的关于某话题的文本信息,能一定程度弥补统计信息不足的缺陷,但是话题覆盖范围相对有限。  本文针对微博客平台突发话题发现面临的问题和挑战,提出了引入消息流行度预测与长微博信息的解决方案。论文的主要贡献和工作包括:  1.提出了使用消息流行度预测进行微博客平台突发话题发现的方案。针对微博客平台实时信息量大、信息更新速度快的特点,引入消息流行度预测模型,对信息流中的信息可能的转发情况进行快速的判断,从而有效的提取出流行度高的信息,为进一步的突发话题提取提供了数据基础。在该方案中,首先对微博客平台的消息流行度进行了定义,基于该定义将预测问题转化成了转发分类问题,并对二类分类与多值分类两种方案进行了对比研究,确定了使用二类分类的方案。更进一步,本文对模型中使用的特征进行了因子分析,从理论上对特征进行了解释,并筛选出了更具有区分度的特征,最终,模型预测的正确率达到了0.912,召回率达到了0.785.  2.提出了使用微博客多媒体信息中的长微博进行突发话题发现的方案。微博客平台对消息内容长度进行限制,进而导致了短文本的出现,本文引入了长微博的概念达到扩充话题内容的目的。本文给出长微博的定义,然后对长微博应用于突发话题发现问题的理论意义与应用意义进行研究。更进一步,本文探索性地研究长微博信息抽取的规则,提出了有效提升抽取效率以及抽取准确率的两种规则。该方案有效的解决了微博客平台存在的短文本的问题,提高了突发话题发现的准确率及性能。  3.设计了结合消息流行度预测与长微博信息的统一模型。本文基于流行度预测与长微博信息抽取,提出了内容聚合的统一模型,充分利用了两种方案的优点,解决了信息量大、更新快以及统计信息不足的问题。在保证足够性能与准确性的基础上,形成了微博客平台突发话题发现方法。在该模型得到的数据集上进行突发话题发现,正确率达到了0.516,召回率达到了0.733,与原始消息集相比,话题的突发性、准确性都有显著的提升。  
其他文献
随着暗物质的发现,暗能量的提出,特别是宇宙加速膨胀的发现,宇宙学正处于快速蓬勃发展的阶段,逐渐发展成一门精确的宇宙学[1]。由于宇宙高度非线性,长时间演化等特征,宇宙模拟计算
随着异构网络的不断融合,以及多种无线接入技术长期并存的趋势,多连接技术能够支持多接口终端保持多个网络连接同时通信,将广泛应用于未来异构网络中,各国际标准组织都展开了
中国古代建筑具有悠久的历史传承和辉煌的艺术成就,是中国文化中的一块瑰宝,对中国古代建筑进行建模研究是当前虚拟现实和计算机视觉领域的一项重要热点。古代建筑建模研究的成
计算流体力学(CFD)在航空航天等领域发挥着重要作用,该领域对先进CFD软件有着强烈的需求。随着计算技术的发展,众核构架计算机在大型计算机成为了主流。将CFD程序移植到众核构
本文对运动图像增强与网络环境下图像信息跨尺度分析与融合进行了研究。图像增强是指根据特定的需要突出图像中的重要信息,同时减弱以及去除不需要的信息。网络环境下图像信
随着互联网的不断发展,网络大众的视频消费需求不断增加。流媒体技术由于其具有边下载边观看的特点,能够满足用户快速观看视频节目的需求,已成为大众网络视频消费的主要方式。同
三网融合是指电信网、互联网和广播电视网三大网络通过技术改造实现物理层的互联互通,业务层的相互渗透,具体表现为在技术上趋于一致,且都能为用户提供语音、数据、图像等综
无线感知反应网络,由大量具有数据采集、处理、无线通信能力的微型低功耗感知节点及反应节点通过多跳通信的方式组成,协作完成大规模复杂的监测和控制任务。由于无线感知反应
当前人们享受信息化带来的便利的同时也深受海量数据难以管理的困扰,个人文件同步系统的产生和发展为这个问题带来一个比较好的解决办法。这种文件同步系统通过将个人文件夹内
当今社会互联网技术的飞速发展以及与电信网络不断融合的背景下,VOIP技术在互联网中变得也来越重要,网络中对传输语音视频数据的需求在不断增强。互联网的飞速发展加速了互联