论文部分内容阅读
微博是一种通过关注机制分享简短实时信息的社交网络平台。用户可以通过手持移动设备、电脑等工具进行信息的实时发布,发布的文本信息长度被限制在140个字,内容可以是文字、图片、视频、音频等多种格式。微博从产生到现在取得了迅猛发展,微博用户总量已达3.27亿。标签承载了用户的信息特征,从微博中提取用户的兴趣标签,是进行个性化推荐(如用户推荐和微博内容推荐)、精准广告投放、微博的聚类和分类等研究的基础。 微博用户兴趣标签的提取,需要解决的问题主要有两个:微博数据的获取和用户兴趣关键词标签的抽取。首先,微博平台出于对用户隐私和自身数据的保护,微博数据的获取不同于传统静态网站,其数据不能随意获取。另外,微博内容较短、内容样式丰富,用户之间的关系不同于强社交网络中的好友关系。同时由于微博内容比较随意,很多网络词语都出现在其中,对微博用户的兴趣标签提取存在一定的难度。 针对上述问题,本文设计了一个微博用户兴趣标签提取系统。首先,通过分析比较现有的微博数据获取方法:基于API的数据获取和基于模拟登录机制的数据获取,根据分析的结果选择了基于模拟登录机制的数据获取方案;然后,以新浪、腾讯微博为例对微博数据获取中的模拟登录流程进行了分析,对模拟Ajax翻页数据下载、多线程以及线程调度和代理机制等数据采集中的关键步骤进行了设计,并给出了采集后的原始网页信息的解析和存储方案。特别地,针对微博的特点,提出了一个微博用户兴趣标签提取方法,该方法根据微博用户之间好友的重合程度,定义了用户的兴趣相似度,基于用户的兴趣相似度采用TextRank算法对查找的关键词进行加权排序,提取权值较大的作为用户的兴趣标签。由于该方法综合考虑了用户的社交关系和微博内容,故能够更加全面准确地提取用户的兴趣标签。 本文最后实现了整个微博用户兴趣标签提取系统,对系统及提出的用户兴趣标签提取方法进行了测试,实验结果充分表明了方法的有效性。