社会信息网络的社区结构研究

来源 :中国科学院研究生院 中国科学院大学 | 被引量 : 0次 | 上传用户:merlex
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近几年,随着社交网站SNS(Social Network Site)的快速发展,如:Facebook,Renren,YouTube等,社会网络分析已经成为一个非常热门的研究领域。社区结构,作为社会信息网络中最普遍和最重要的特征之一,具有社区内部节点连接紧密、社区之间连接稀疏的特点,已经成为社会网络分析领域的重要研究课题之一,并受到众多学者的广泛关注和研究。研究社区结构,对分析网络的拓扑结构、理解网络的功能、揭示网络中的隐含模式、分析及预测其行为等具有非常重要的理论意义。同时,研究社区结构还具有非常广泛的应用价值,目前正逐步应用在恐怖组织识别、组织结构管理、研究小组查找与发现、广告投放、个性化社会营销等众多领域。   本文针对社会信息网络中的社区结构展开研究,围绕社区的拓扑性、主题性和动态性分别研究了面向主题的静态社区发现算法、动态社区的增量发现及追踪算法、面向微博的社区分析及动态预测算法,同时,为实现社区内成员的个性化社会问答这一目标,我们以面向特定主题的虚拟社区为研究对象,提出了用户兴趣建模及贡献者推荐算法,并以此作为社区结构的应用案例。总体而言,本文取得的主要研究成果及创新之处体现在以下四个方面:   (1)面向主题的静态社区发现   社区发现是社会网络分析领域的一个重要研究方向,已有的工作往往通过分析链接结构来发现社区,这就导致所发现的社区只能反映拓扑结构层面上的强弱关系,但不能反映人们的共性主题等语义特征。   为解决这一问题,本文综合考虑社交对象和成员间的链接关系,提出一种面向主题的社区发现算法。首先,我们提取出所有的社交对象利用子空间聚类算法找到不同的主题。然后,根据社交对象和社交成员/个体的关联关系,对社交成员进行划分,得到一系列的主题簇。针对各个不同的主题簇,分析各个成员之间的链接强度,从而找到面向主题的社区结构。在三种真实数据上的实验结果表明,我们提出的方法所发现的杜区结构不但能反应链接关系的强弱,而且还能保证同一社区的成员具有单一的共性主题,即得到社区结构能有效地反映拓扑和语义信息,使社区结构更有意义。定量评价结果表明,当主题至少与链接结构同等重要时,该方法要优于其他方法。基于该结果,我们可以非常方便地理解哪些人因为什么主题而聚集在一起,这对协作推荐、社交营销、社会化搜索、社会问答等应用具有非常重要的意义。   (2)动态社区的增量发现及追踪   社区的动态变化性是其最本质的特征之一,对动态社区进行发现、追踪及演化分析成为社区结构研究的一个热点。然而,已有的方法大多是基于“时间片切分”这一指导思想,因此,时间片的切分粒度会严重影响到方法的灵活性和结果的准确性,不利于其应用和推广。   为解决这一问题,本文完全抛开时间片的切分理念,提出一种新颖的增量的社区发现及追踪方法。其指导思想为:只在初始状态采用完整的社区发现方法找到对应的社区结构,然后根据当前的社区结构及节点、链接的变化,增量地发现和追踪新的社区结构。为了评价该方法,我们在真实的网络数据上进行实验,并与代表性的两种方法做了比较,定量评价结果表明,提出的增量方法能更准确、灵活、高效地发现动态变化的社区结构,此外,该方法在动态社区发现的同时,能显式地追踪社区的演化路径。   (3)动态社区的结构分析及预测-以微博为例   微博的广泛应用已经吸引了众多学者的眼球,并由此开展了许多探索性的工作。然而这些工作大多集中在对整个微博媒体的研究,旨在揭示微博中存在的宏观机制,尚未有相关工作研究微博中的社区结构及其动态变化。   为弥补这一空白,我们以腾讯微博为例,设计实现了数据收集系统,同时,对微博网络中的显式社区和隐式社区结构进行了探索和分析,并针对显式的社区结构提出基于logistic的K历史预测模型。在四个真实数据上的实验结果表明,该模型能提高社区结构预测的准确性。   (4)动态的面向主题的社区应用案例一个性化社会问答   作为社区结构的一个案例应用,本文对面向特定主题的虚拟社区进行研究,旨在实现社区内成员的个性化社会问答,同时提高其知识获取效率。   围绕这一目标,我们共展开两方面的工作,一是提出一种基于交互问答历史数据的用户兴趣建模方法,挖掘用户的兴趣主题及其对该主题感兴趣的程度。二是提出一种基于交互问答历史的“贡献-受益”网络构建算法,用于发现潜在的贡献者或专家。实验结果表明,用户兴趣度的计算与更新方法、潜在贡献者的推荐机制在一定程度上提高了社区成员交互问答的个性化程度,同时,也提高了成员的学习效率和满意度。
其他文献
交叉证认是天文学领域中实现多波段数据融合的一项关键技术,它根据不同星表中天体分布位置上的相关性,来进行星表间的关联融合工作。交叉证认的主要意义在于,通过将不同波段
在软件测试的过程中,采用合适的方式构造测试用例,是非常重要的一环。传统的测试用例生成方式主要由测试人员手动生成或者通过随机的方式生成,这些方式都存在着缺陷,手动生成
面向服务的计算模式能够无缝地把各种应用及服务组合起来,形成新的增值服务来满足用户需求。然而由于网络环境的动态性、开放性、多样性以及服务数量的快速增加,使得如何从众多
发布/订阅是一种基于事件的通信范型,它在时间、空间和控制流上完全解耦,能够提供异步、匿名和一对多的通信机制。内容发布/订阅系统完全独立于网络层,依赖消息的内容来进行
学位
随着操作系统和计算机体系结构的快速发展,计算机基础平台出现了多样化的趋势,不同平台间的应用程序不能无缝迁移成为了制约基础平台发展的主要问题,应用程序跨平台的支持变得越
随着电动汽车技术的日益成熟,电动汽车将成为未来汽车发展的方向。中国政府也在加大投入,大力支持以电动汽车为代表的新能源汽车的研究、开发和市场应用。为了推动电动汽车规
近年来,随着互联网中多媒体应用的快速增长,业务对网络资源的需求越来越多,用户对应用服务质量的要求也越来越高,为了满足用户在不同网络环境状况下的服务质量需求,必须充分
随着互联网的快速发展,以用户为中心,反映了用户使用体验,包含了用户对软件功能、性能等各方面满意度的软件评论信息越来越多。通过对这些评论进行分析,软件开发者可以了解自身软
Web服务组合能够重用Web服务资源,尽最大的能力提供满足用户需求的服务,已成为目前研究的热点。Web服务种类越来越多,如何扩展Web服务类型的组合方式、实现服务的无缝组合是当今