论文部分内容阅读
近几年,随着社交网站SNS(Social Network Site)的快速发展,如:Facebook,Renren,YouTube等,社会网络分析已经成为一个非常热门的研究领域。社区结构,作为社会信息网络中最普遍和最重要的特征之一,具有社区内部节点连接紧密、社区之间连接稀疏的特点,已经成为社会网络分析领域的重要研究课题之一,并受到众多学者的广泛关注和研究。研究社区结构,对分析网络的拓扑结构、理解网络的功能、揭示网络中的隐含模式、分析及预测其行为等具有非常重要的理论意义。同时,研究社区结构还具有非常广泛的应用价值,目前正逐步应用在恐怖组织识别、组织结构管理、研究小组查找与发现、广告投放、个性化社会营销等众多领域。
本文针对社会信息网络中的社区结构展开研究,围绕社区的拓扑性、主题性和动态性分别研究了面向主题的静态社区发现算法、动态社区的增量发现及追踪算法、面向微博的社区分析及动态预测算法,同时,为实现社区内成员的个性化社会问答这一目标,我们以面向特定主题的虚拟社区为研究对象,提出了用户兴趣建模及贡献者推荐算法,并以此作为社区结构的应用案例。总体而言,本文取得的主要研究成果及创新之处体现在以下四个方面:
(1)面向主题的静态社区发现
社区发现是社会网络分析领域的一个重要研究方向,已有的工作往往通过分析链接结构来发现社区,这就导致所发现的社区只能反映拓扑结构层面上的强弱关系,但不能反映人们的共性主题等语义特征。
为解决这一问题,本文综合考虑社交对象和成员间的链接关系,提出一种面向主题的社区发现算法。首先,我们提取出所有的社交对象利用子空间聚类算法找到不同的主题。然后,根据社交对象和社交成员/个体的关联关系,对社交成员进行划分,得到一系列的主题簇。针对各个不同的主题簇,分析各个成员之间的链接强度,从而找到面向主题的社区结构。在三种真实数据上的实验结果表明,我们提出的方法所发现的杜区结构不但能反应链接关系的强弱,而且还能保证同一社区的成员具有单一的共性主题,即得到社区结构能有效地反映拓扑和语义信息,使社区结构更有意义。定量评价结果表明,当主题至少与链接结构同等重要时,该方法要优于其他方法。基于该结果,我们可以非常方便地理解哪些人因为什么主题而聚集在一起,这对协作推荐、社交营销、社会化搜索、社会问答等应用具有非常重要的意义。
(2)动态社区的增量发现及追踪
社区的动态变化性是其最本质的特征之一,对动态社区进行发现、追踪及演化分析成为社区结构研究的一个热点。然而,已有的方法大多是基于“时间片切分”这一指导思想,因此,时间片的切分粒度会严重影响到方法的灵活性和结果的准确性,不利于其应用和推广。
为解决这一问题,本文完全抛开时间片的切分理念,提出一种新颖的增量的社区发现及追踪方法。其指导思想为:只在初始状态采用完整的社区发现方法找到对应的社区结构,然后根据当前的社区结构及节点、链接的变化,增量地发现和追踪新的社区结构。为了评价该方法,我们在真实的网络数据上进行实验,并与代表性的两种方法做了比较,定量评价结果表明,提出的增量方法能更准确、灵活、高效地发现动态变化的社区结构,此外,该方法在动态社区发现的同时,能显式地追踪社区的演化路径。
(3)动态社区的结构分析及预测-以微博为例
微博的广泛应用已经吸引了众多学者的眼球,并由此开展了许多探索性的工作。然而这些工作大多集中在对整个微博媒体的研究,旨在揭示微博中存在的宏观机制,尚未有相关工作研究微博中的社区结构及其动态变化。
为弥补这一空白,我们以腾讯微博为例,设计实现了数据收集系统,同时,对微博网络中的显式社区和隐式社区结构进行了探索和分析,并针对显式的社区结构提出基于logistic的K历史预测模型。在四个真实数据上的实验结果表明,该模型能提高社区结构预测的准确性。
(4)动态的面向主题的社区应用案例一个性化社会问答
作为社区结构的一个案例应用,本文对面向特定主题的虚拟社区进行研究,旨在实现社区内成员的个性化社会问答,同时提高其知识获取效率。
围绕这一目标,我们共展开两方面的工作,一是提出一种基于交互问答历史数据的用户兴趣建模方法,挖掘用户的兴趣主题及其对该主题感兴趣的程度。二是提出一种基于交互问答历史的“贡献-受益”网络构建算法,用于发现潜在的贡献者或专家。实验结果表明,用户兴趣度的计算与更新方法、潜在贡献者的推荐机制在一定程度上提高了社区成员交互问答的个性化程度,同时,也提高了成员的学习效率和满意度。