微博用户兴趣标签提取研究

来源 :北京工业大学 | 被引量 : 0次 | 上传用户:sheep0211
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
微博是一种通过关注机制分享简短实时信息的社交网络平台。用户可以通过手持移动设备、电脑等工具进行信息的实时发布,发布的文本信息长度被限制在140个字,内容可以是文字、图片、视频、音频等多种格式。微博从产生到现在取得了迅猛发展,微博用户总量已达3.27亿。标签承载了用户的信息特征,从微博中提取用户的兴趣标签,是进行个性化推荐(如用户推荐和微博内容推荐)、精准广告投放、微博的聚类和分类等研究的基础。  微博用户兴趣标签的提取,需要解决的问题主要有两个:微博数据的获取和用户兴趣关键词标签的抽取。首先,微博平台出于对用户隐私和自身数据的保护,微博数据的获取不同于传统静态网站,其数据不能随意获取。另外,微博内容较短、内容样式丰富,用户之间的关系不同于强社交网络中的好友关系。同时由于微博内容比较随意,很多网络词语都出现在其中,对微博用户的兴趣标签提取存在一定的难度。  针对上述问题,本文设计了一个微博用户兴趣标签提取系统。首先,通过分析比较现有的微博数据获取方法:基于API的数据获取和基于模拟登录机制的数据获取,根据分析的结果选择了基于模拟登录机制的数据获取方案;然后,以新浪、腾讯微博为例对微博数据获取中的模拟登录流程进行了分析,对模拟Ajax翻页数据下载、多线程以及线程调度和代理机制等数据采集中的关键步骤进行了设计,并给出了采集后的原始网页信息的解析和存储方案。特别地,针对微博的特点,提出了一个微博用户兴趣标签提取方法,该方法根据微博用户之间好友的重合程度,定义了用户的兴趣相似度,基于用户的兴趣相似度采用TextRank算法对查找的关键词进行加权排序,提取权值较大的作为用户的兴趣标签。由于该方法综合考虑了用户的社交关系和微博内容,故能够更加全面准确地提取用户的兴趣标签。  本文最后实现了整个微博用户兴趣标签提取系统,对系统及提出的用户兴趣标签提取方法进行了测试,实验结果充分表明了方法的有效性。  
其他文献
随着信息化时代的不断进步,计算机已经深入到社会生活的方方面面,也在潜移默化地影响着人们的生活习惯[1~3]。在步入信息时代的同时,人们也意识到信息安全的重要性。随着计算机
由于半导体工艺的飞速发展,计算机系统的集成度和功耗密度显著提高,电源管理日趋重要。PKUnity86-2是一款融合了x86处理器和AMBA开放式总线的新型系统芯片,二进制兼容MS Windows
大力推进公共交通出行已成为缓解城市交通拥堵的主要途径。轨道交通出行作为公共交通的主要组成部分,因其快速性、便利性、准时性、大容量等优势而受到城市居民的广泛青睐。准
随着计算机技术和网络的不断发展,互联网的应用越来越广泛,网络在为用户实现信息的集中存储、集中管理方面带来极大的便利,同时也带来了信息的安全性问题。集中管控模式下的系统
隐通道是伴随着系统中安全策略的出现而产生的,是在系统安全策略的监控下,以合法的操作来进行非法通信,从而导致机密信息的泄漏。国内外很多安全标准均要求高安全操作系统必须进
互联网的使用和普及很大程度上为人们的日常生活提供了便利的条件,尤其是移动互联网的兴起更是带动智能移动终端等先进技术的流行,图片和视频的使用使得信息得以迅速传播,但隐藏
近年来,众多的空间科学任务使得我们对该类卫星的设计开发周期有了更多、更新和更高的要求。为了提高空间科学卫星在工程设计、测试和运行等各个阶段完成的质量和效率,世界各航
在对传统的运动控制系统的工作过程进行了详细的分析后,结合FPGA可编程器件的特点,运用了SOPC技术,提出了一种新的系统体系架构。根据任务要求不同的特点,合理地划分逻辑功能,给出
随着CAD技术的发展,现在许多设计工作都由计算机软件完成,这样既方便了文档的存储和检索,也方便了编辑与修改。然而,许多企业早年留下的设计图纸多以蓝图形式存在,原始设计稿丢失
随着人们对公共安全问题日益重视,生物特征识别技术也越来越受到关注。虹膜是人眼中圆环状的纹理区域,由于其唯一性、稳定性、非侵犯性和高防伪性,成为最适合用于身份识别的生物