基于Flink Gelly的社区发现算法设计与实现

来源 :中国科学院大学 | 被引量 : 0次 | 上传用户:wl7644719
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,复杂网络逐渐成为社会学、生物学和计算机等学科研究的热点。复杂网络将自然界中的人或实体抽象为网络中的节点,人或实体之间的关系抽象为网络中的边。复杂网络在自然界中广泛存在,如万维网、人际关系网和蛋白质交互网等。研究发现,复杂网络往往具有社区结构这一重要特征,表现在网络中的节点呈现聚集化,即社区内部的节点连接紧密,而社区之间的节点连接则比较稀疏。社区结构的合理发现,不但有助于简化复杂网络,而且可以凸显出网络中潜在的结构和关系,为人们理解网络拓扑和功能结构提供帮助,为利用和改造网络提供支持。  目前,对社区结构的研究得到了广泛关注,众多社区发现算法被提出。然而传统的社区发现算法均是串行算法,时间和空间复杂度较高。在如今大规模复杂网络场景下,算法在时间和空间上都受到了巨大的考验,无法快速准确的处理大规模复杂网络。因此,如何在大规模复杂网络中正确而稳定地发现社区结构是一个十分重要的问题和挑战。  为了解决这一难题,本文基于Flink Gelly分布式图计算平台完成了传统社区发现算法的并行化设计与实现。这样,利用集群所具有的计算优势来处理海量的复杂网络数据,降低算法执行所消耗的时间。本文的关键技术有:(1)提出了一种社区发现算法的特征分析方法,该方法从计算模式、数据依赖、计算顺序、计算性质和时序依赖五个维度分析传统社区发现算法的特征,总结了实现传统社区发现算法并行化的三个要求;(2)提出了一种社区发现算法的并行化方法,该方法通过特征分析、并行化设计和并行化实现三个步骤,实现传统社区发现算法并行化。其中,并行化设计是基于BSP计算模型和TLAV编程模型,包含图划分策略、顶点状态、顶点状态更新函数和消息状态及其发送函数的设计;(3)提出了一种基于最大独立子集的图划分策略,该策略通过避免相邻顶点同时计算,解决了由计算顺序和时序依赖特征产生的并行化问题。  在上述关键技术的研究基础上,本文完成了SCAN、Semi-Clustering、MLPA、KCore、SCC和ClosenessCentrality六个典型社区发现算法的并行化设计与实现。实验结果表明,这六个算法在准确性和扩展性两个方面均表现优异。
其他文献
近年来,基于生物特征的身份鉴别技术取得重大突破,在电子金融、安防监控、移动终端等多个领域得到了广泛应用。然而,现有的方法在应用到实际中还存在众多问题。已有的生物特征鉴
数字参考咨询服务又称虚拟参考咨询服务,指在数字化信息环境下,图书馆以网络为传输手段,以数字化的信息资源为基础,通过电子邮件或实时聊天等各种形式,向用户提供不受时间、空间限
随着智能网业务的不断普及和多样化,网络规模的不断扩大,整个网络的复杂性日益提高,给智能网的维护工作带来了很大的困难。为了降低维护的成本和风险,提高维护质量,本文提出
随着互联网的发展,流媒体视频内容日趋增多。流媒体具有高数据量,高带宽、高访问量和高服务质量要求等特点,而现阶段互联网“尽力而为”的特点决定了在现有网络架构下难以实
随着无线网络及其应用的迅速发展,网络规模逐渐增大,网络应用变得越来越复杂,网络的管理工作也日益繁重。加上无线网络具有无线传输的介质、动态改变的拓扑、缺乏监督等特点,
智能农业监测系统是一个远程采集农业信息,并进行分析决策的智能系统。无线传感器网络作为一种新型的无线通信技术,在智能农业监测系统中的广泛应用,是现代化农业发展的必然
随着生物研究所、濒危动物和稀有动物研究所、畜牧人工繁殖研究所、生命科学院、农科院及人工授精站等的兴起,计算机辅助动物精子质量分析系统具有广泛的应用价值。它的利用
随着计算机及互联网技术的飞速发展,互联网已成为国家重要的信息基础设施。与此同时,互联网作为一个运行系统及社会公共环境,其所面对的和隐藏在其中的安全威胁也越来越复杂
装配序列规划作为制造领域的研究热点之一,其好坏直接影响产品的可装配性、装配成本以及装配质量。自上世纪八十年代以来,国内外专家提出了各种各样的装配序列规划求解方法,
网络的复杂性和安全问题的不确定性使得信息安全问题的解决方案面临着两个难题:全面防范对策不可能,又无必要;而重点防范又难以应对高不确定、高突发的网络事件。可以说在信息