论文部分内容阅读
聚类分析是一种常用的数据分析方法,指将数据集合分组,使得具有类似性质的数据聚到一起成为一个类,而属性相差较大的数据相互分开成为不同类的过程,是数据挖掘的一个重要分支,也是模式识别的一个重要应用领域,是一种典型的无监督分类方法。其中基于划分的聚类算法,基于密度的聚类算法,基于网格的聚类算法,基于图论的聚类算法在数据聚类的过程中具有相似性,所以将它们汇总在一起称统称为分割聚类法。这些算法不管是在理论上还是实际应用中都得到了充分的探讨与应用。但是由于数据来源的多样性与数据结构的复杂性等原因以及模式样本集本身的几何特征,目前还没有一种聚类算法能够同时运用于全部的数据库,每种算法都有各自的缺陷。需要根据数据集的具体特征来选择合适聚类算法。首先本文介绍了一些基本的聚类算法,包括了这些聚类算法的步骤以及对它们在处理数据的过程中表现出来的优点与缺点,然后根据这些算法的缺点提出了基于改进这些缺点的算法。针对动态聚类算法在选择初始聚类中心具有随机性的缺点,在本文的第三章提出了基于参考点的k-均值算法,基于参考点的k-均值算法是在k-均值算法和参考点的基础上提出的,主要是为了克服k-均值算法在寻找初始聚类中心时具有盲目性以及聚类结果受到模式样本排列顺序影响的缺点,使得初始聚类中心能够更好的反应模式样本集的几何特征,以便在聚类时能够减少迭代次数、提高聚类准确度。在本文的第四章提出了网格密度最大的近邻聚类算法,网格密度最大的近邻聚类算法是在近邻聚类法和中心网格的基础上提出的,主要是为了克服近邻聚类法的聚类结果受第一个指定的聚类中心影响较大以及初始聚类中心单一的缺点,以便提高聚类准确度。实验证明,与传统的聚类算法相比较,本文提出的算法有较好的聚类效果。