面向短文本的高精度热点话题快速发现技术研究

来源 :中国科学院大学 | 被引量 : 0次 | 上传用户:qiuzy
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网技术的蓬勃发展和相关应用的迅速普及,尤其随着Web2.0技术的发展,每个人不再仅仅是信息的消费者,更是信息的生产者,网民可以借助于电脑,手机等网络终端,随时随地在微博、社交、新闻、博客等各种网站上进行信息获取或发布。但正是由于互联网数据爆炸性的增长,以及其具有快餐化、碎片化等特点,导致信息过载、缺乏完整性问题愈发明显,快节奏的人们对于时刻涌现的众多新信息感到无所适从,但人们又迫切希望能够及时快速的了解社会上正在讨论的热点话题。在这种背景下,话题检测技术作为能够自动发现和组织网络信息的语义关联、帮助用户快速获取网络信息全貌的数据挖掘技术,近年来引起了学术界和工业界的强烈关注。  传统的话题发现技术,主要面向传统的新闻文档数据,语言较为规整,信息比较丰富,但近年来微博等自媒体的出现,语言越来越口语化,格式越来越自由,传统的话题发现技术已经无法适应新的网络环境,其主要具有以下几个特点:  首先,数据规模大。由于目前Web2.0的普及,每天产生的微博数据可能有上亿条,如果采用传统话题发现的话,时间复杂度非常高,延时非常明显,用户体验非常糟糕,而用户又往往希望能及时快速的了解目前网民正在讨论的事件或者话题,因此速度上有进一步提升的空间。本文提出了具有平衡能力的预聚类算法,利用快速有效的距离公式对数据进行预聚类,将数据集切分成大小均匀的子数据集,并保证每个子数据集具有一定的精度,之后在每个子数据集上进行话题发现,最后再通过一定的后处理合并还原真实话题。  其次,文本稀疏。由于目前很多微博客类似新浪微博、Twitter等都限制了微博文本的长度,一般不超过140个字符,因此导致微博文本具有非常小的信息量,特征空间非常稀疏,采用传统的话题发现技术就会容易出现错误。因此本文提出一种文本扩展方法,借鉴Boost的思想,通过有效的利用预聚类的结果对文本进行扩展,并减少扩展带来的噪音,增加文本信息,提高聚类发现精度。  最后,本文基于以上研究内容设计并实现了一套完整的基于短文本的快速高精度热点话题发现系统。
其他文献
当网络运用于教育领域,网络教学就应运而生。网络教学以开放的、灵活的、终身的教育为目标,是对传统教育方式的一种补充和延伸。与传统教学相比较,网络教学系统具有许多不可比拟
随着计算机和网络的普及,电子政务成为政府改进效率的一个重要方向。在电子政务的实际应用中,对网上多语种信息的搜集、文档化以及全文检索成为一个重要课题。为了解决这一问题
当前,随着网络的发展,资源共享已无处不在,P2P的提出方便了人们更多的资源的共享,P2P的研究中资源的发现和资源的复制是两个重要的研究点,一方面为了减少网络的负载一方面为了能够
随着Internet的发展和普及,Web已经在很大程度上改变了消费者反馈观点的途径。如今,产品使用者可以通过商家的网站,网络论坛,BBS,以及Blog发表对于产品性能的看法。通常称这类数据
随着网络技术的迅速发展,如何在开放的网络上安全地传递信息,已成为国内外研究、应用的热点。  目前,PKI技术(Public KeyInfrastructure-公钥基础设施)是解决此问题最好的途径。
随着Internet的迅速发展,电子音乐已普及到人们的工作生活当中。音乐中的情感语义是音乐的本质特征,但是,许多音乐却缺少这种情感语义。因此,添补音乐的情感信息已变得越来越重要
无线传感器网络是一类系统资源极度受限的网络,尤其是能量资源,而网络本身的特殊应用往往要求网络必须能够长时间不间断的正常工作。因此,如何有效利用网络的有限能量资源,延长网
近年来,随着计算机硬件技术的不断进步,特别是内存价格的不断下降、容量不断增大以及64位处理器的出现使得计算机可使用超过4GB的内存。这些技术的发展和应用,大大增加了内存数
古树名木具有十分重要的生态、经济和社会价值,被誉为“活化石”。由于生态环境的急剧恶化以及许多急功近利的原因,导致古树名木被盗、被焚、被毁的现象频繁发生。本文提出将
企业资源计划ERP系统集信息技术与先进的管理思想于一身,是现代企业的运行模式,反映时代对企业合理调配资源,最大化地创造社会财富的要求,成为企业在信息时代生存、发展的基