论文部分内容阅读
近年来新型社交媒体微博客平台高速发展,已经逐渐成为人们分享、获取信息的主要方式。由于微博客平台用户量急剧增多,用户产生的数据总量呈现爆炸式增长,基于这些信息的突发话题发现面临新的挑战。话题模型、数据分类或聚类等传统方法,在新闻、博客等领域取得了不错的效果,然而微博客平台对消息内容长度的限制产生的短文本以及用户产生的宏大的实时信息流,限制了这些方法在该平台的应用。消息流行度预测能准确的发现信息流中包含重要话题的信息,但是无法克服短文本统计信息不足的问题,长微博包含大量的关于某话题的文本信息,能一定程度弥补统计信息不足的缺陷,但是话题覆盖范围相对有限。 本文针对微博客平台突发话题发现面临的问题和挑战,提出了引入消息流行度预测与长微博信息的解决方案。论文的主要贡献和工作包括: 1.提出了使用消息流行度预测进行微博客平台突发话题发现的方案。针对微博客平台实时信息量大、信息更新速度快的特点,引入消息流行度预测模型,对信息流中的信息可能的转发情况进行快速的判断,从而有效的提取出流行度高的信息,为进一步的突发话题提取提供了数据基础。在该方案中,首先对微博客平台的消息流行度进行了定义,基于该定义将预测问题转化成了转发分类问题,并对二类分类与多值分类两种方案进行了对比研究,确定了使用二类分类的方案。更进一步,本文对模型中使用的特征进行了因子分析,从理论上对特征进行了解释,并筛选出了更具有区分度的特征,最终,模型预测的正确率达到了0.912,召回率达到了0.785. 2.提出了使用微博客多媒体信息中的长微博进行突发话题发现的方案。微博客平台对消息内容长度进行限制,进而导致了短文本的出现,本文引入了长微博的概念达到扩充话题内容的目的。本文给出长微博的定义,然后对长微博应用于突发话题发现问题的理论意义与应用意义进行研究。更进一步,本文探索性地研究长微博信息抽取的规则,提出了有效提升抽取效率以及抽取准确率的两种规则。该方案有效的解决了微博客平台存在的短文本的问题,提高了突发话题发现的准确率及性能。 3.设计了结合消息流行度预测与长微博信息的统一模型。本文基于流行度预测与长微博信息抽取,提出了内容聚合的统一模型,充分利用了两种方案的优点,解决了信息量大、更新快以及统计信息不足的问题。在保证足够性能与准确性的基础上,形成了微博客平台突发话题发现方法。在该模型得到的数据集上进行突发话题发现,正确率达到了0.516,召回率达到了0.733,与原始消息集相比,话题的突发性、准确性都有显著的提升。