基于自动检测密度峰值的聚类算法研究

来源 :长春工业大学 | 被引量 : 0次 | 上传用户：xyfall533

【摘要】

：

随着大数据技术的快速发展和智能产业的迅速扩张,数据呈现指数级别的增长,如何从海量的数据中提取有价值的信息,成为各行各界关心的问题。数据挖掘作为一种获取有效信息的技

【作者】

：

崔世琦

【出处】

：

长春工业大学

【发表日期】

：

2020年01期

【关键词】

：

密度峰值聚类 K近邻线性回归残差集合 ESD异常检测

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

随着大数据技术的快速发展和智能产业的迅速扩张,数据呈现指数级别的增长,如何从海量的数据中提取有价值的信息,成为各行各界关心的问题。数据挖掘作为一种获取有效信息的技术手段,近年来的关注度持续飙升,而聚类分析作为数据挖掘领域的一种重要分支,发展也十分迅速,如今已经在生命科学,图像分割、金融风险等诸多领域中广泛应用。快速搜索密度峰值聚类算法(Clustering by fast search and find of density peaks,DPC)是由Alex Rodriguez等人于2014年发表在《Science》杂志上的一种新型的密度聚类算法,其具有简单高效、参数依赖性低、适应非凸数据集的特点。尽管密度峰值聚类算法相较之前的算法已经有了较大的改进,但仍存在一些缺陷:(1)没有统一密度度量准则,需要根据样本集的状况选择对应的密度计算公式,也没有解决密度相等时的样本点分配问题。(2)截断距离d_c的选择较为敏感,较小差异的截断距离d_c就会严重影响样本的密度估计。(3)使用欧氏距离定义样本相似性过于简单,在非球面等复杂的数据集上存在局限性。(4)在确定簇中心点的过程中需要人工挑选,带有一定主观性,在区别度低的数据集上容易发生错误,导致聚类结果较差。针对上述问题,本文做了以下改进:1)针对密度度量准则不统一,密度相等时样本点分配困难和人工挑选簇中心点等缺陷提出一种新的E-DPC算法,该算法利用高斯函数的数学性质优化密度度量公式,利用索引的方式解决密度相等时的样本点分配问题,最后结合SH-ESD算法的假设检验特点自动选取簇中心点。通过在UCI标准集和人工合成集上的实验结果表明,优化后的算法具有更好的聚类效果。2)针对截断距离d_c设置敏感,欧氏距离定义相似性过于简单,人工挑选簇中心点带有主观性等缺陷提出一种新的KE-DPC算法。该算法首先结合KNN的近邻信息和欧氏距离优化相似性度量准则,之后根据K近邻样本的个数重新定义局部密度计算公式,从而避免敏感截断距离d_c的设置。最后利用一元线性回归拟合决策图上的样本分布,获得残差集合,再根据ESD异常检测中残差分析的特点自动获取簇中心点,排除了人为选择的主观性。通过优化后KE-DPC算法与K-means、DBSCAN、DPC等算法的对比实验表明,KE-DPC算法可以更准确的判断中心点,并且在各种评价指标中获得较优的评价结果。

其他文献

任务重复与教师反馈对初中生英语写作词汇运用的影响

英语写作能够综合评价学生的英语水平,它能够体现学生对词汇、语法、语篇结构的掌握情况。其中,词汇通常被视作写作的灵魂。根据中考英语作文评分标准,英语写作词汇运用水平

学位

任务重复教师反馈词汇运用迁移

基于证据理论的邻域覆盖多粒度粗糙集的相对约简

随着社会科学技术的不断发展,人类所采集的数据规模越来越庞大,数据结构越来越复杂。如何从庞大而又复杂的数据中提取有用的知识便成为了当代社会多个领域的共同需求。粗糙集

学位

多粒度邻域覆盖粗糙集约简证据理论

初中语文学习词典插图的调查研究以及在教学中的应用

语文学习词典是初中生必备的学习工具,为学生的语文学习提供帮助。插图作为词典的微观结构之一,在学生学习过程中辅助语言文字帮助理解语义、加深记忆、激发学生学习的兴趣以

学位

学习词典插图教学应用

宽带频谱感知技术研究

随着无线电的普及,频谱资源变得越来越稀缺,这就造成了未授权用户可以合法使用的频带非常有限,正在使用的频带占总频带的比例不高。而认知无线电技术的出现,就是在不影响主用

学位

频谱感知嵌套采样非圆信号信号检测欠采样

多磁场作用下板坯结晶器内流场的数值模拟

流动控制结晶器电磁制动技术能更有效地控制结晶器流场,从而改善连铸坯质量,表面流速也可以得到优化,但是该技术也有难以克服的缺陷:生产中参数控制困难,制动强度过大时上返

学位

板坯结晶器多磁场流场数值模拟

基于MEC的多无人机部署和任务调度

边缘计算(Edge Computing,EC)是基于物联网和云服务的思想和概念,提出的一种利用网络边缘结点来处理、分析数据的模型。它广泛应用于云卸载、人脸识别、智能家居、智慧城市等

学位

多无人机移动边缘计算任务调度双层优化差分进化

基于Hammerstein模型的压电陶瓷作动器建模及补偿方法

压电陶瓷作动器作为快速倾斜镜的主要执行机构,是空间激光通信能够建立稳定通信链路的保障。压电陶瓷作动器具备刚度大、位移分辨率高、输出力大等优点,相比于音圈电机等其他

学位

压电陶瓷作动器迟滞特性Hammerstein补偿算法

不同多粒度标记决策系统中最优粒度的选择

在实际应用中,多粒度标记决策系统常被用于各种信息分析,能否快速从该系统中选择最需要的粒度是我们获取知识的关键。无论是规则提取还是属性约简基本是在最优粒度选择出来的

学位

多粒度标记最优粒度多决策多源动态属性值变化

土地经营权抵押权实现的法律问题研究

从2014年“三权分置”理论正式提出后,我国一直在试点地区开展土地经营权抵押的探索工作。2019年1月1日新修订的《中华人民共和国农村土地承包法》施行,这是第一次在法律上明

学位

土地经营权抵押地方样本生存权抵押权实现

基于随机森林的条纹管激光雷达回波分类研究

条纹管激光雷达作为具有研究前景的激光雷达之一,可以在全波形采样的基础上,同时获取多个探测区域及目标的高精度三维信息,在机载激光雷达测绘领域具备广阔的发展前景。在实

学位

条纹管激光雷达图像特征提取随机森林分类算法参数优化

基于自动检测密度峰值的聚类算法研究

其他学术论文