论文部分内容阅读
随着大数据技术的快速发展和智能产业的迅速扩张,数据呈现指数级别的增长,如何从海量的数据中提取有价值的信息,成为各行各界关心的问题。数据挖掘作为一种获取有效信息的技术手段,近年来的关注度持续飙升,而聚类分析作为数据挖掘领域的一种重要分支,发展也十分迅速,如今已经在生命科学,图像分割、金融风险等诸多领域中广泛应用。快速搜索密度峰值聚类算法(Clustering by fast search and find of density peaks,DPC)是由Alex Rodriguez等人于2014年发表在《Science》杂志上的一种新型的密度聚类算法,其具有简单高效、参数依赖性低、适应非凸数据集的特点。尽管密度峰值聚类算法相较之前的算法已经有了较大的改进,但仍存在一些缺陷:(1)没有统一密度度量准则,需要根据样本集的状况选择对应的密度计算公式,也没有解决密度相等时的样本点分配问题。(2)截断距离d_c的选择较为敏感,较小差异的截断距离d_c就会严重影响样本的密度估计。(3)使用欧氏距离定义样本相似性过于简单,在非球面等复杂的数据集上存在局限性。(4)在确定簇中心点的过程中需要人工挑选,带有一定主观性,在区别度低的数据集上容易发生错误,导致聚类结果较差。针对上述问题,本文做了以下改进:1)针对密度度量准则不统一,密度相等时样本点分配困难和人工挑选簇中心点等缺陷提出一种新的E-DPC算法,该算法利用高斯函数的数学性质优化密度度量公式,利用索引的方式解决密度相等时的样本点分配问题,最后结合SH-ESD算法的假设检验特点自动选取簇中心点。通过在UCI标准集和人工合成集上的实验结果表明,优化后的算法具有更好的聚类效果。2)针对截断距离d_c设置敏感,欧氏距离定义相似性过于简单,人工挑选簇中心点带有主观性等缺陷提出一种新的KE-DPC算法。该算法首先结合KNN的近邻信息和欧氏距离优化相似性度量准则,之后根据K近邻样本的个数重新定义局部密度计算公式,从而避免敏感截断距离d_c的设置。最后利用一元线性回归拟合决策图上的样本分布,获得残差集合,再根据ESD异常检测中残差分析的特点自动获取簇中心点,排除了人为选择的主观性。通过优化后KE-DPC算法与K-means、DBSCAN、DPC等算法的对比实验表明,KE-DPC算法可以更准确的判断中心点,并且在各种评价指标中获得较优的评价结果。