论文部分内容阅读
密度峰值聚类算法是一种基于密度的聚类算法,其密度峰值依靠密度-距离的模式进行确定,可以处理任意形状的类簇,是一种简单又高效的聚类算法。然而该算法仍然存在几点缺陷:(1)截断距离需要人工选取,缺乏一定理论依据。(2)局部密度定义的方式有一定局限性,导致当数据集中存在不同类簇间样本疏密程度差异较大时,聚类效果差。(3)密度峰值聚类算法难以处理具有流形特征的数据集,而这种特征在真实数据集中十分常见。本文针对上述问题展开了研究,并提出了对应的改进方案:(1)针对密度峰值聚类算法处理数据时需要人为输入截断距离,对于不同数据集其参数也需要大量的先验实验来确定的缺点,提出了萤火虫优化的密度峰值聚类算法。算法利用密度估计熵评估数据间的确定性关系,用萤火虫算法迭代寻优找到熵最小时的截断距离,将其带入标准的密度峰值聚类算法中进行聚类。从而避免了人为设置参数的无依据性,根据不同数据集自适应的选择参数。(2)针对密度峰值聚类算法局部密度定义存在的缺陷,提出了基于余弦核的密度峰值聚类算法。余弦核函数利用数据集的局部信息定义样本的局部密度,可以发现截断距离内不同样本的位置差异,同时平衡了类簇中心点和边界点对样本局部密度的影响。(3)密度峰值聚类算法采用欧式距离作为样本间相似性的度量准则,在处理流形数据集时难以获得较好的聚类效果。鉴于此,提出一种基于测地距离与动态邻域的密度峰值聚类算法。采用测地距离度量样本间的相似性,并根据样本的空间分布动态调整样本测地距离的近邻个数。这种度量方式解决了流形数据集的聚类问题,且可有效聚类稀疏簇和密集簇同时存在的数据集。结合密度峰值聚类算法的优点,设计了一种异常值的判定准则。并结合实例对于电力大数据中的负荷数据进行了异常值检测,为电力大数据的异常处理与分析提供了一定理论基础。