论文部分内容阅读
“微博客(Micro-Blog)”是对小型/迷你型博客的一种称呼,是可以即时发布和共享消息的网络服务。由于微博客内容简短、更新率高、传播渠道多、速度快等的特点,使其在左右或主导国内外事件态势和走向,大众传媒与普通受众互动中起到重要作用。因为微博客惊人的聚合力、号召力、渗透力加大了信息监测和管理的难度。如何对海量信息进行快速、准确的采集达到从整体上监控微博客的目的意义重大。由于微博客和博客在信息更新频度上、信息组织结构上、用户关联关系和访问方式上存在有很大的差异,因此不能简单的使用博客、论坛对信息的采集方法。所以通过研究其特点寻找适合微博客的采集模型,挖掘用户关联关系的意义重大。 本文首先介绍了微博客信息采集和微博客用户的研究现状和意义。然后经过分析微博客的特征,提出使用用户关联关系中核心人物列表指导微博客信息采集的方法。在信息采集中使用两种策略:第一基于页面元数据采集中研究并使用了Nutch采集工具对微博客进行采集,同时为了提高采集的效率引入云平台,并在此平台上对采集效率进行对比。第二根据微博客开放API的特点提出基于微博客API的用户信息采集方法,设计并实现了基于用户ID的采集策略和人物信息采集和人物关系抽取方法。在采集工作结束后,经过用户关联关系的挖掘,提出微博客用户追随机制,并基于此机制得到微博客中核心人物,最终使用得到的核心人物列表指导更新采集。