论文部分内容阅读
近十年来,数据挖掘逐渐成为数据库和人工智能等研究领域的一个热点。聚类(clustering)是数据挖掘中重要的研究课题之一。通过聚类,人们能够识别密集的和稀疏的区域,发现全局的分布模式和数据属性之间的有趣的相互关系。在数据挖掘中,聚类分析能作为一个独立的工具来获得数据分布的情况,观察每个簇的特点,集中对特定的某些簇做进一步的分析。此外,聚类分析还可以作为其他算法(如特征和分类等)的预处理步骤,这些算法再在生成的簇上进行处理。
迄今为止,研究人员已经提出了许多聚类算法,但是在很多方面还有待于进一步发展,如海量数据的处理,高维数据的聚类,子空间聚类,带有约束条件的聚类,数据流聚类等。由于数据库中收集了大量的数据,一个数据库或数据仓库可能包含若干维或者属性,而目前一些聚类算法只是擅长处理低维数据和小型数据库。因此,对海量高维数据的聚类算法研究是十分有意义的。本文对海量高维数据的聚类算法进行了一定的研究,主要工作包括:
1.对传统的经典聚类算法进行了研究和比较,详细介绍了这些经典算法的基本思想,实现步骤及其优缺点和适用范围。
2.提出把高维聚类过程分解成多个阶段的二维聚类过程,然后和其他低维聚类方法相结合,从而实现对高维数据集的聚类。
3.对传统DBSCAN算法进行改进,使之适合大型数据库的聚类。
4.从算法的复杂度和实验结果说明该算法对海量高维数据聚类的有效性。