论文部分内容阅读
近几年,随着互联网的普及,人们的交流方式也发生了翻天覆地的变化。微博作为一种新兴的网络信息传播媒体受到广大网民的追捧,它的时效性和裂变性可以使信息在很短的时间内得到广泛的传播,因此对信息的有效控制就变得十分重要。因为,一旦有人蓄意传播虚假信息或者危害社会安全的言论,后果将十分严重。那么,对在网络信息传播中占主导地位的意见领袖的挖掘和监控就显得意义重大。目前对于意见领袖的挖掘方法主要有统计学方法、聚类分析法、基于SNA社会网络分析法等,这些方法都有各自的特点,但是面对331亿微博网民所产生的海量微博数据,它们并没有表现出很好的处理能力。本文以微博用户属性为立足点,将其多个属性特征与多目标优化问题结合起来,提出把Skyline查询引入到微博意见领袖的挖掘中,Skyline查询是解决多目标优化问题的一类方法。面对海量的微博数据,本文引入Hadoop关键技术MapReduce框架,将Skyline计算中的BNL块嵌套循环算法和SFS排序过滤算法在该编程框架下实现,使其在处理海量数据时有更好的性能。接着对意见领袖评估模型进行建立,提出从用户影响力和用户参与度两个指标评价微博意见领袖,并利用AHP层次分析法确定各属性权重,最后给出意见领袖计算公式。在挖掘实验阶段,搭建Hadoop集群环境,设计微博爬虫获取微博数据,将数据用并行化后的SFS算法进行处理,再将处理结果运用于意见领袖模型中进行计算。最后将本文挖掘的意见领袖与新浪微博官方人气用户进行对比,结果显示本文的方法挖掘出的意见领袖分布领域相对广泛,在一定程度上避免了新浪微博官方用户排名中娱乐人物一家独大的现象。因此,本文的思路可以作为一种解决方法,处理海量、高维数据,为微博意见领袖的挖掘提供了一种可能的选择。