基于自动检测密度峰值的聚类算法研究

来源 :长春工业大学 | 被引量 : 0次 | 上传用户:xyfall533
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着大数据技术的快速发展和智能产业的迅速扩张,数据呈现指数级别的增长,如何从海量的数据中提取有价值的信息,成为各行各界关心的问题。数据挖掘作为一种获取有效信息的技术手段,近年来的关注度持续飙升,而聚类分析作为数据挖掘领域的一种重要分支,发展也十分迅速,如今已经在生命科学,图像分割、金融风险等诸多领域中广泛应用。快速搜索密度峰值聚类算法(Clustering by fast search and find of density peaks,DPC)是由Alex Rodriguez等人于2014年发表在《Science》杂志上的一种新型的密度聚类算法,其具有简单高效、参数依赖性低、适应非凸数据集的特点。尽管密度峰值聚类算法相较之前的算法已经有了较大的改进,但仍存在一些缺陷:(1)没有统一密度度量准则,需要根据样本集的状况选择对应的密度计算公式,也没有解决密度相等时的样本点分配问题。(2)截断距离d_c的选择较为敏感,较小差异的截断距离d_c就会严重影响样本的密度估计。(3)使用欧氏距离定义样本相似性过于简单,在非球面等复杂的数据集上存在局限性。(4)在确定簇中心点的过程中需要人工挑选,带有一定主观性,在区别度低的数据集上容易发生错误,导致聚类结果较差。针对上述问题,本文做了以下改进:1)针对密度度量准则不统一,密度相等时样本点分配困难和人工挑选簇中心点等缺陷提出一种新的E-DPC算法,该算法利用高斯函数的数学性质优化密度度量公式,利用索引的方式解决密度相等时的样本点分配问题,最后结合SH-ESD算法的假设检验特点自动选取簇中心点。通过在UCI标准集和人工合成集上的实验结果表明,优化后的算法具有更好的聚类效果。2)针对截断距离d_c设置敏感,欧氏距离定义相似性过于简单,人工挑选簇中心点带有主观性等缺陷提出一种新的KE-DPC算法。该算法首先结合KNN的近邻信息和欧氏距离优化相似性度量准则,之后根据K近邻样本的个数重新定义局部密度计算公式,从而避免敏感截断距离d_c的设置。最后利用一元线性回归拟合决策图上的样本分布,获得残差集合,再根据ESD异常检测中残差分析的特点自动获取簇中心点,排除了人为选择的主观性。通过优化后KE-DPC算法与K-means、DBSCAN、DPC等算法的对比实验表明,KE-DPC算法可以更准确的判断中心点,并且在各种评价指标中获得较优的评价结果。
其他文献
英语写作能够综合评价学生的英语水平,它能够体现学生对词汇、语法、语篇结构的掌握情况。其中,词汇通常被视作写作的灵魂。根据中考英语作文评分标准,英语写作词汇运用水平
随着社会科学技术的不断发展,人类所采集的数据规模越来越庞大,数据结构越来越复杂。如何从庞大而又复杂的数据中提取有用的知识便成为了当代社会多个领域的共同需求。粗糙集
语文学习词典是初中生必备的学习工具,为学生的语文学习提供帮助。插图作为词典的微观结构之一,在学生学习过程中辅助语言文字帮助理解语义、加深记忆、激发学生学习的兴趣以
随着无线电的普及,频谱资源变得越来越稀缺,这就造成了未授权用户可以合法使用的频带非常有限,正在使用的频带占总频带的比例不高。而认知无线电技术的出现,就是在不影响主用
流动控制结晶器电磁制动技术能更有效地控制结晶器流场,从而改善连铸坯质量,表面流速也可以得到优化,但是该技术也有难以克服的缺陷:生产中参数控制困难,制动强度过大时上返
边缘计算(Edge Computing,EC)是基于物联网和云服务的思想和概念,提出的一种利用网络边缘结点来处理、分析数据的模型。它广泛应用于云卸载、人脸识别、智能家居、智慧城市等
压电陶瓷作动器作为快速倾斜镜的主要执行机构,是空间激光通信能够建立稳定通信链路的保障。压电陶瓷作动器具备刚度大、位移分辨率高、输出力大等优点,相比于音圈电机等其他
在实际应用中,多粒度标记决策系统常被用于各种信息分析,能否快速从该系统中选择最需要的粒度是我们获取知识的关键。无论是规则提取还是属性约简基本是在最优粒度选择出来的
从2014年“三权分置”理论正式提出后,我国一直在试点地区开展土地经营权抵押的探索工作。2019年1月1日新修订的《中华人民共和国农村土地承包法》施行,这是第一次在法律上明
条纹管激光雷达作为具有研究前景的激光雷达之一,可以在全波形采样的基础上,同时获取多个探测区域及目标的高精度三维信息,在机载激光雷达测绘领域具备广阔的发展前景。在实