基于联接的高效图聚类方法研究

被引量 : 0次 | 上传用户:chen721050780
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,随着社会网络、通信网络、生物网络等应用的快速发展,其上产生的图数据呈现暴发性增长。图聚类是图数据分析的有力技术之一,但是,对于大规模图数据来说,当前的大多数图聚类算法在时间和空间方面的扩展性表现很差,其主要原因是目前算法要发现图中所有的簇。实际上,许多聚类应用只需要最佳簇形成的子集合,而不是整个图中的所有簇。针对这种情况,Macropol和Singh于2010年提出了一种新的技术TopGC(Top Graph Clusters),它概率性的找到基于联接的大型图中联接良好的类似小集团的最佳簇。算法具备固有的可平行性,并且随着图规模的变大以线性时间运行。然而TopGC自身也存在不足。首先,由于TopGC是从种子顶点出发依据单层邻接点进行聚类,会使产生的聚类结果过度细化。其次,对于大规模的图,TopGC的时间和空间效率有待于进一步提高。为此,本文提出了一种快速的基于k层邻接点的分布式图聚类算法ITGC(Improved Top Graph Clusters),主要研究内容有:1)提出k层邻接点的概念,根据k层邻接点的相似性和顶点间边权大小找到所需数目的联接良好的类似小集团的最佳簇,从而避免依据单层邻接点进行聚类所导致的聚类细化。2)对于更大规模的基于联接的图,由于TopGC等技术没有采用分布式并行处理技术,在时间和空间方面并不能很好地满足实际应用的需求。本文进一步提出一种基于连通性判断搜索最小代价割集的方法,使用最小代价割集对基于联接的图进行分片,降低图分片的关联性,对基于联接的大型图进行分布式聚类。3)由于也可能找到一些重叠簇,找到所有簇之后,有一个后期处理步骤。本文提出了当两个簇的重叠比例超过给定阈值时,以簇得分的定义为标准保留一个最佳簇。4)采用Java语言设计程序进行了实验测试,通过实际数据集上的大量实验表明,本文所提出的聚类方法较传统方法在时间和空间效率上具有较大优势,并且可以发现更高质量的簇。
其他文献
我们现在处在一个信息时代。商业广告作为一种传播媒介已经渗透到人类生活的各个角落。与此同时,通感隐喻在广告中的应用也显得愈加突出。通感隐喻在潜意识攻心方面的独特心理
目的观察并比较利多卡因和利多卡因混合葡萄糖对大鼠脊髓及神经根的形态学变化的影响,通过对感觉功能的测定,探究利多卡因混合葡萄糖是否增加脊髓及神经根的毒性。方法30只雄性
<正>走神,主要表现为注意力不集中。对学生走神现象的关注,古已有之,春秋战国时期的孟子在《学弈》中就对走神的表现及后果有了阐述。直到现在,上课走神一直被教师认为是最普
建筑设计创新作为未来的发展方向被建筑师广泛关注,二十世纪后半叶到二十一世纪以来,众多杰出建筑师致力于建筑设计创新,以AIA建筑金奖获奖建筑师尤其出色。因此二十一世纪AIA建
在社会主义新农村建设脚步不断加快和公共财政职能不断加强的新形势下,国家对"三农"支出投入不断加大,强农惠农政策不断推新,只有加强乡镇财政资金的监管,才能使惠农资金发挥
形状记忆聚合物是一种新型的智能材料,在航空航天和医学领域具有巨大发展潜力。形状记忆聚合物具有成本低、形变量大、低密度、性能可控和多种驱动等优异性能,近年来是科学家研
抗性淀粉(Resistant Starch,RS)是健康者小肠中不吸收的淀粉及其降解产物。抗性淀粉作为一种新型功能食品添加剂,目前已成为食品营养学的研究热点。本文以银杏淀粉为原料,研究了压
脑是自然界中最复杂的器官之一,是人体的中央控制器,控制和调节着人的情感、认知、感觉、行为等活动。了解和认识脑的结构、功能和活动表达可以揭开人类脑的秘密,为脑疾病的治疗
德日刑法三阶层体系中的构成要件论发端于贝林的"行为类型说",但"行为类型说"不能得到认同;构成要件论实质化及主观化的合理结局只能是"违法有责类型说"。在当代德日刑法中,
下颌前突(mandibular prognathism,MD)或下颌发育过度是由于下颌骨过度生长发育而致下颌骨相对于上颌骨或颅骨向前突出,引起咬合关系紊乱和面下部畸形。常表现为牙列呈近中关系,前