论文部分内容阅读
随着互联网技术的蓬勃发展和相关应用的迅速普及,尤其随着Web2.0技术的发展,每个人不再仅仅是信息的消费者,更是信息的生产者,网民可以借助于电脑,手机等网络终端,随时随地在微博、社交、新闻、博客等各种网站上进行信息获取或发布。但正是由于互联网数据爆炸性的增长,以及其具有快餐化、碎片化等特点,导致信息过载、缺乏完整性问题愈发明显,快节奏的人们对于时刻涌现的众多新信息感到无所适从,但人们又迫切希望能够及时快速的了解社会上正在讨论的热点话题。在这种背景下,话题检测技术作为能够自动发现和组织网络信息的语义关联、帮助用户快速获取网络信息全貌的数据挖掘技术,近年来引起了学术界和工业界的强烈关注。 传统的话题发现技术,主要面向传统的新闻文档数据,语言较为规整,信息比较丰富,但近年来微博等自媒体的出现,语言越来越口语化,格式越来越自由,传统的话题发现技术已经无法适应新的网络环境,其主要具有以下几个特点: 首先,数据规模大。由于目前Web2.0的普及,每天产生的微博数据可能有上亿条,如果采用传统话题发现的话,时间复杂度非常高,延时非常明显,用户体验非常糟糕,而用户又往往希望能及时快速的了解目前网民正在讨论的事件或者话题,因此速度上有进一步提升的空间。本文提出了具有平衡能力的预聚类算法,利用快速有效的距离公式对数据进行预聚类,将数据集切分成大小均匀的子数据集,并保证每个子数据集具有一定的精度,之后在每个子数据集上进行话题发现,最后再通过一定的后处理合并还原真实话题。 其次,文本稀疏。由于目前很多微博客类似新浪微博、Twitter等都限制了微博文本的长度,一般不超过140个字符,因此导致微博文本具有非常小的信息量,特征空间非常稀疏,采用传统的话题发现技术就会容易出现错误。因此本文提出一种文本扩展方法,借鉴Boost的思想,通过有效的利用预聚类的结果对文本进行扩展,并减少扩展带来的噪音,增加文本信息,提高聚类发现精度。 最后,本文基于以上研究内容设计并实现了一套完整的基于短文本的快速高精度热点话题发现系统。