论文部分内容阅读
聚类分析是数据挖掘过程中的一个重要的技术。聚类分析是将数据划分成有意义的簇,簇描述了数据集的自然结构特征;类,是基于某些信息的衡量上有一定的公共特性的对象的集合。通常聚类算法可以分为层次聚类、分割聚类、密度型聚类、网格型聚类和其他聚类几种。比较常见的聚类算法有K-means算法、STING算法、CLIQUE算法和CURE算法等。
在过去的几年中聚类分析发展方向有两个:加强现有的聚类算法和发明新的聚类算法。现在已经有一些加强的算法用来处理大型数据库和高维度数据例如小波变换使用多分辨率算法,网格从粗糙到密集从而提高聚类簇的质量。对于数据量大、维度高并且包含许多噪声的集合,要找到一个“全能”的聚类算法是非常困难的。某些算法只能解决其中的一到两个问题,同时能解决三个问题的算法还没有。现在最大的困难是高维度(同时包含大量噪声)数据的处理。本文试图做一些这方面的探索。
对于一个高维度的数据集,如果不事先设法去掉多余的特征,模型的效果就会受到很大的影响;降低多余的、不相关特征的个数可以减少聚类的时间,产生一个更加简洁和易于理解的聚类结果。而在传统的聚类算法中,各个特征通常被无差异地处理,所有特征同样程度地作用于聚类结果。本文用特征重要因子衡量特征对聚类结果的贡献程度并广义加权特征在聚类过程中的作用,从而实现优化聚类结果的目的。
K-means是最古老、应用最广泛的聚类方法之一(Tan等,2006)。本文正是基于特征选择的思想对K-means算法进行改进,以去除高维数据对象的特征空间中的冗余特征甚至噪声特征,这些特征一方面可能降低分类或聚类的精度,另一方面会大大增加学习及训练的时间及空间复杂度。改进算法可以实现降维,降低机器学习的时间及空间复杂度。改进的方法是:使用ULAC框架,首先进行初次聚类,获得类标签;根据添加了类标签的数据集建立决策树,使用USFS法计算FIF(Liu at,2006);然后根据上述步骤获得的FIF修正K-means算法的相似性度量再次聚类,得到修正后的聚类结果。本文选取了UCI数据集中的3个数据集进行改进的K-means算法的验证。进行了模糊特征选择之后,聚类模型的维度被降低,各维度对聚类结果的区分程度也被明确度量,数据集更容易被理解,模型变得更加简单。UCI数据集的实验表明了改进算法的有效性。
改进算法在国内某高校的人力资源数据集的实际应用进一步证明,改进算法是实用和有效的。