论文部分内容阅读
在互联网技术高度发展的今天,人们的生活方式已经跟互联网紧密结合。社交网络作为互联网在这一阶段的产物,满足了人们不同的在线社交需求。当前主流的社交网络有以信息分享为主的真人社交平台Facebook和人人网、以关注机制为基础的实时短信息广播社交平台Twitter和Weibo,以问答为主要互动方式的平台Quora和知乎、以及各类即时通讯应用,比如微信和Line等等。已有的研究表明,社交网络可以反映群众关注的热点和态度倾向,因此社交网络是舆情分析的重要对象。另一方面,社交网络是信息传播的绝佳载体,借助于用户间复杂紧密的连接关系,信息可以呈现爆炸式的传播,如果不对信息加以监控和引导,容易引发网络群体事件。社交网络的测量是上述研究的基础。社交网络的测量与分析是指通过采集、整理社交网络的原始数据,利用网络、社会网络和数据挖掘的理论方法和技术,挖掘和提取社交网络的结构特征和用户行为特性。社交网络的测量有助于了解网络的特征和变化规律,为舆情分析和监控提供理论基础。 当前,社交网络的测量主要集中在对整体网络的测量,忽视了内容的相关性和动态性。因此,本文针对社交网络开展面向主题的测量,主要工作和贡献包括: 1)在数据获取方面,针对当前面向主题的社交网络数据采集的采集数据少、召回率低等问题,提出将内置搜索引擎和通用搜索引擎相结合的主题消息采集方法,并将LDA模型应用到主题关键词的抽取,实现采集过程中主题的更新,同时还提出了一种基于用户生存值的高效采集扩展策略。 2)在测量方面,选取了三个主题,在两个社交网络上实现了主题网络的构建并测量了结构特征参数,包括出入度分布、同配性、出入度相关性和聚集系数等等。同时以七天为一个周期,对主题网络演化过程中参数的变化规律进行了研究。另外,针对主题消息数据,测量了主题消息极性以及主题热点变化。 3)通过测量发现:(1)主题网络具有明显的无标度性和小世界特性,大部分主题网络具有异配性;(2)主题网络的演化过程中,新节点主要由大V节点引入;(3)周期性主题在不同周期形成的主题网络在演化过程中结构参数的变化具有明显的一致性;(4)主题的性质对主题网络演化过程中参数变化的强度有明显的影响;(5)主题消息极性和其被转发的概率有一定的关联,受主题性质的影响较大;(6)利用主题关键词描述热点的方法可以有效测量出主题热点的变化情况。 综上,通过对面向主题的社交网络的测量和分析,我们发现了主题网络的结构特征和演化规律,这对指导后续的社交网络的设计与建设、深入进行相关研究如话题发现和传播、关键人物社区的发现和跟踪等都有重要的参考价值和意义。