微博客信息采集与用户关联关系研究

来源 :北京信息科技大学 | 被引量 : 0次 | 上传用户:xiao_zhuang_lin
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
“微博客(Micro-Blog)”是对小型/迷你型博客的一种称呼,是可以即时发布和共享消息的网络服务。由于微博客内容简短、更新率高、传播渠道多、速度快等的特点,使其在左右或主导国内外事件态势和走向,大众传媒与普通受众互动中起到重要作用。因为微博客惊人的聚合力、号召力、渗透力加大了信息监测和管理的难度。如何对海量信息进行快速、准确的采集达到从整体上监控微博客的目的意义重大。由于微博客和博客在信息更新频度上、信息组织结构上、用户关联关系和访问方式上存在有很大的差异,因此不能简单的使用博客、论坛对信息的采集方法。所以通过研究其特点寻找适合微博客的采集模型,挖掘用户关联关系的意义重大。  本文首先介绍了微博客信息采集和微博客用户的研究现状和意义。然后经过分析微博客的特征,提出使用用户关联关系中核心人物列表指导微博客信息采集的方法。在信息采集中使用两种策略:第一基于页面元数据采集中研究并使用了Nutch采集工具对微博客进行采集,同时为了提高采集的效率引入云平台,并在此平台上对采集效率进行对比。第二根据微博客开放API的特点提出基于微博客API的用户信息采集方法,设计并实现了基于用户ID的采集策略和人物信息采集和人物关系抽取方法。在采集工作结束后,经过用户关联关系的挖掘,提出微博客用户追随机制,并基于此机制得到微博客中核心人物,最终使用得到的核心人物列表指导更新采集。
其他文献
覆盖率对于软件测试有着非常重要的作用,它是用来度量测试完整性的一个手段。通过覆盖率数据,可以知道测试工作是否充分,测试的弱点在哪些方面,进而指导我们设计能够增加覆盖率的
随着多媒体信息技术的膨胀,传统的检索方法已经不能满足发展的需求。自1992年基于内容的图像检索的概念提出之后,已经得到了国内外信息领域科技人员的广泛重视和研究,成为多媒体
随着互联网应用的高速发展,网络安全受到越来越多的重视。国内大部分网上银行系统都采用验证码作为保障网络安全的一种手段。验证码是一种人机区分技术,其本质是创建一个用户容
第四代VoIP乎叫中心在很大程度上是为因特网服务的,其功能更加强大,应用范围更加广泛,同时对座席平台的分布式部署和快速开发能力提出了新的要求。本文总结了本人研究生阶段
使用真实设备教学的过程中经常有一些危险的、破坏性的实验,并且设备价值昂贵、容易损坏,使得这种教学方式无法普及。随着虚拟现实仿真技术的发展,使用交互式三维仿真课件教学的
近年来,随着通信网络的扩容和多媒体技术的迅速发展,基于无线网络的多媒体应用尤其是视频应用得到飞速发展,视频业务的普及提高了用户对视频业务质量的要求,用户希望能够随时随地
众所周知,我国油气勘探领域的数据处理具有数据量大、计算时间长的特点,并行处理技术日益引起石油地球物理界的广泛关注,如何高效并行处理大规模地震数据已成为亟待解决的重大课
近年来,随着智能手机与网络通信的发展,视频逐步成为信息的主要载体。相比与静态图片,视频携带的信息更为丰富,表达能力更强。面对海量的视频数据,如何利用有效的手段对其进行分析
无线Mesh网络(WMN,Wireless Mesh Network)是一种新型的无线通信网络,具有自组织性、自愈性、频谱效率高、覆盖范围大、可扩展性强、可靠性强等众多无可比拟的优势。无线Mesh网
共指现象在自然语言中十分常见,它使得句子、主题更为简明突出,但同时增加了计算机理解自然语言难度。共指消解足自然语言处理的重点和难点之一,在机器翻译、文本摘要、信息抽取