【摘 要】
:
近年来,随着信息技术的快速发展,各个行业都形成了自身的海量数据,在电信行业形成的海量通话数据、生物化学中分子之间的关系数据、交通网路的架构信息以及社交网络中形成的
论文部分内容阅读
近年来,随着信息技术的快速发展,各个行业都形成了自身的海量数据,在电信行业形成的海量通话数据、生物化学中分子之间的关系数据、交通网路的架构信息以及社交网络中形成的数据信息。如何充分的挖掘这些数据的潜在价值是目前学术界和工业界探讨的热点问题。对于这些数据形成的巨大的复杂网络系统,可以用图结构清晰地表示,而对图中的数据进行聚类操作是挖掘图数据信息的一个基本工具。然而,现实中的数据总是在不断地动态更新,传统的基于图结构的聚类算法SCAN(A Structural Clustering Algorithm for Networks)并不能有效地处理和维护实时更新的数据信息。因此本文提出了一种基于广度优先树BFS-tree(Breadth First Search-tree)的增量图结构聚类算法ISCAN(Incremental Structural Clustering for Dynamic Networks)。当数据更新时,利用该算法无需重新计算整个图,只需更新少量的边,通过广度优先树的断裂以及合并来维护已有的聚类结果。此外,为了减少在计算图中顶点之间相似性所消耗的时间,本文提出了如何利用多核进行结构相似性的计算,并且提出了两种有效的负载均衡策略。传统的结构聚类算法,对给定的阈值参数非常的敏感,细微的变化都会对聚类结果产生较大的影响,本文提出了一种基于三角形的结构聚类模型,相对于传统的结构聚类算法,不仅能够降低聚类结果对参数的敏感性,而且能够得到更加紧密的社区。最后,以现实世界中形成的量图数据为依据做了大量的对比试验。实验结果证明了提出的增量图结构聚类算法和并行计算结构相似性的有效性、正确性,以此同时,通过实验发现,我们提出的基于三角形的结构聚类,不仅能够得到更加紧密的社区,而且当阈值发生改变时,聚类的结构更加的稳定。
其他文献
近些年,视频传达出的情感正逐渐成为用户选择和观看视频的一个重要参考。随着视频数据量的激增,视频情感内容自动标记变得愈加重要。对于用户来说,如果海量视频能够被自动标
近年来,随着无线通信和多媒体技术飞速发展,集群用户对于多媒体业务融合系统的需求日益高涨,以“全面掌控、实时可见”为特点的无线多媒体集群系统应运而生,成为集群系统下一
农户生计研究是分析农民问题的重要窗口。学术界认为导致农户生计策略差异化的原因包括宏观因素和微观因素。宏观研究从制度、经济、社会、文化等多方面分析了影响农户生计策
滴灌施肥技术在我国农业生产中的应用越来越广泛,研究滴灌施肥系统不同运行参数下水肥在土壤中的分布规律,对优化滴灌施肥系统运行模式,提高水肥利用率具有重要意义。在此背
随着国民经济的发展和居民生活水平的提高,民用电力电子化负荷得到了广泛应用,分布式光伏发电在居民用电中也获得了快速发展。这些谐波源分布在整个台区配电网中,具有种类数
人工智能是一门研究模拟和延伸人的智能的一门新技术科学[1]。它作为计算机科学的一个分支,旨在了解智能的实质,并生产出一种新的能模拟人类智能的方式进行思考并作出决策行动的智能机器,该领域的研究包括机器人、语言识别、图像识别、自然语言处理和专家系统等。人工智能从诞生以来,其理论和技术日益成熟,应用领域也不断扩大。人工智能在数学机械化领域的突出体现就是机器证明。机器证明是通过计算机和辅助证明工具实现定理
近年来,随着科技的不断发展,人们对于新型能源的需求不断扩大,矿石燃料的过度开发产生的环境污染问题越来越严重,迫使我们开发具有高效性能的新型储能材料和高效催化剂。开发
有机-无机杂化钙钛矿具有高吸收系数、高载流子迁移率、可调直接带隙、低激子结合能等优点,因此成为广泛研究的光电材料之一。钙钛矿太阳能电池光电转换效率发展迅速,短短十
蓝噪声采样,在空间域中是指均匀且随机的样本分布,在频域中则指没有低频噪声和结构性偏差的样本分布。由于蓝噪声采样理想的空间与频谱性质,带有蓝噪声特性的采样分布被广泛
鹿茸是指鹿科动物头部衍生的未骨化密生茸毛的幼角,是自然界惟一能够周期性完全再生的哺乳动物骨质附属器官,其组织学研究表明,从上到下呈现出完整的间充质增殖分化为软骨,软