【摘 要】
:
聚类分析作为数据挖掘领域中的一个重要分支,研究数据对象的分类问题,在模式识别、图像处理、市场研究以及生命科学等众多学科领域具有广泛的应用前景。DBSCAN算法因为可以发现
论文部分内容阅读
聚类分析作为数据挖掘领域中的一个重要分支,研究数据对象的分类问题,在模式识别、图像处理、市场研究以及生命科学等众多学科领域具有广泛的应用前景。DBSCAN算法因为可以发现任意形状的聚类,排除噪声干扰等优点而备受关注。但是该算法只是简单的使用全局参数,参数的设置缺乏针对性,将会导致对多密度的数据集的聚类效果不理想;在对大数据集进行聚类时,算法时间复杂度较高,对大数据集适用性较差。本文结合空间索引技术,提出了一种基于单元格的多密度聚类算法GMDBSCAN,并对多个样本数据集进行了实验,实验结果验证了GMDBSCAN算法的有效性。本文的主要工作如下:
提出了一种基于单元格的多密度聚类算法GMDBSCAN。从聚类质量和复杂度两方面改进了DBSCAN算法。GMDBSCAN算法引入了基于空间的划分技术划分数据空间,以每个单元格作为一个局部区域,根据每个单元格的密度确定局部的MinPts参数;根据类间的相似度合并类;用基于距离的方法处理边界,提高了算法的聚类质量。GMDBSCAN算法引入了SP-Tree空间索引结构,保存了数据的空间位置信息,为空间区域的邻域查询提供了极大的方便,同时它只索引非空单元格,不仅节省了存储空间还降低了算法的时间复杂性。本文还提出用位图存储数据的邻域关系,避免了反复查询和计算。
本文对GMDBSCAN算法的时间复杂度和空间复杂度进行分析。在模拟数据集和真实数据集上进行了GMDBSCAN算法的性能测试,并对实验结果进行了分析。
其他文献
动画产业被称为21世纪的朝阳产业,渲染是动画制作的重要步骤,传统动画渲染有渲染时间长、无法自动分配帧、渲染数据量大并且无法实时传输和处理等缺陷,这就迫切要求有新的技
随着计算机网络的迅速发展,通过因特网传输的数字产品非常容易受到非法拷贝和窜改。数字水印技术的诞生正是为了解决这个问题。而公钥数字图像水印是数字水印技术的一个分支,
随着网络技术的高速发展,以数据流形式呈现的数据信息大量涌现。例如传感器网络中传回的传感器数据,浏览网页产生的网络点击流,证券买卖产生的实时交易信息等等。这些数据往往具
复杂网络是由错综复杂关系的大量节点构成的网络,具有足够复杂的拓扑结构特征。现实世界中有许多符合复杂网络系统特征的网络。本文基于复杂网络和无标度模型,对无线自组织网
本文讨论具有比较严格的服务质量要求的实时应用程序存在的计算机网络带宽分配问题。由于实时应用的效用函数一般不满足严格凹的性质,因此传统的公平性定义和带宽分配算法对
微粒群算法(PSO, Particle Swarm Optimization)是一种新近出现的启发式全局优化算法,由于算法的易实现性和高效性,因此受到了人们的广泛关注。它已成为与遗传算法、禁忌搜索
近年来,随着生物技术的飞速发展,一个新的研究领域——DNA计算随之产生。DNA计算是一种新的计算模式,它以DNA(deoxyribonucleicacid,脱氧核糖核酸)为“原料”,以生化实验为工
超分辨率是一种从低分辨率观测结果中获得高分辨率图像或图像序列的技术。低分辨率等同低频信息,而高分辨率则包含了高、中、低各频带的信息。目前,超分辨率主要有基于重建的技
带式输送机是一种以胶带、化纤带、钢带、塑料带和钢纤维带作为牵引工件和传送物料的输送机械。它不仅可以传送散碎状的物料如沙子、煤炭等,还可以传送成件成箱的块状物料如成
连续优化问题普遍存在于数学,计算机科学,金融学,工程等研究领域和应用实践中。一般的,一个最优化问题指的是,对于一个目标函数f(x),在其可行域中找到其关于x的最小值或最大