密度峰值聚类算法研究及其在电力大数据异常值检测上的应用

来源 :南昌工程学院 | 被引量 : 1次 | 上传用户：zjqzc

【摘要】

：

【作者】

：

王家园

【出处】

：

南昌工程学院

【发表日期】

：

2019年01期

【关键词】

：

密度峰值聚类萤火虫算法余弦核测地距离电力大数据

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

密度峰值聚类算法是一种基于密度的聚类算法,其密度峰值依靠密度-距离的模式进行确定,可以处理任意形状的类簇,是一种简单又高效的聚类算法。然而该算法仍然存在几点缺陷:(1)截断距离需要人工选取,缺乏一定理论依据。(2)局部密度定义的方式有一定局限性,导致当数据集中存在不同类簇间样本疏密程度差异较大时,聚类效果差。(3)密度峰值聚类算法难以处理具有流形特征的数据集,而这种特征在真实数据集中十分常见。本文针对上述问题展开了研究,并提出了对应的改进方案:(1)针对密度峰值聚类算法处理数据时需要人为输入截断距离,对于不同数据集其参数也需要大量的先验实验来确定的缺点,提出了萤火虫优化的密度峰值聚类算法。算法利用密度估计熵评估数据间的确定性关系,用萤火虫算法迭代寻优找到熵最小时的截断距离,将其带入标准的密度峰值聚类算法中进行聚类。从而避免了人为设置参数的无依据性,根据不同数据集自适应的选择参数。(2)针对密度峰值聚类算法局部密度定义存在的缺陷,提出了基于余弦核的密度峰值聚类算法。余弦核函数利用数据集的局部信息定义样本的局部密度,可以发现截断距离内不同样本的位置差异,同时平衡了类簇中心点和边界点对样本局部密度的影响。(3)密度峰值聚类算法采用欧式距离作为样本间相似性的度量准则,在处理流形数据集时难以获得较好的聚类效果。鉴于此,提出一种基于测地距离与动态邻域的密度峰值聚类算法。采用测地距离度量样本间的相似性,并根据样本的空间分布动态调整样本测地距离的近邻个数。这种度量方式解决了流形数据集的聚类问题,且可有效聚类稀疏簇和密集簇同时存在的数据集。结合密度峰值聚类算法的优点,设计了一种异常值的判定准则。并结合实例对于电力大数据中的负荷数据进行了异常值检测,为电力大数据的异常处理与分析提供了一定理论基础。

其他文献

在小学数学课堂教学中实施素质教育

文章阐述了在小学数学课堂教学中实施素质教育的重要性,提出了在小学数学课堂教学中实施素质教育的策略,即尊重学生人格,构建和谐教学环境;培养数学思维,提升学生自学能力;尊

期刊

小学数学素质教育课堂教学

医院公用系统智能化设计浅谈

本文着重针对医院公用设备设施的控制现状，结合智能化控制仪表的发展水平以医用气体系统和净化空调系统为例，分别提出了相应的智能化远程控制方案，并进行了粗浅的阐述和探讨。

期刊

智能化远程控制医用气体净化空调intellectual remote controlling medical air purification air

初中英语教学任务设计的行动探究

任务型教学是初中英语课堂中一种重要的教学方式,教师应在分析教学现状的基础上,做好初中英语教学任务设计工作,确保学生英语水平的提高和教学质量的提升。

期刊