密度聚类算法研究及改进

来源 :华南理工大学 | 被引量 : 0次 | 上传用户:zoeshuwen88
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
基于密度的方法可以发现任意形状的聚类结果,能克服基于距离的算法只能发现“类圆形”的聚类的缺点。因此基于密度的聚类方法在聚类分析中具有重要的地位。 但对于密度分布不均匀的数据集,传统的聚类方法如DBSCAN等算法的聚类质量较差。针对这个问题,本文通过分析DBSCAN算法的边界检测条件,指出其边界检测条件在密度分布不均匀的数据集上应用的局限性,然后提出了一种新的边界检测度量:质中心偏离度量。质中心偏离度量可以有效地把相邻密度分布不均匀的或具有层次特性的簇的边界和内点区分出来。在质中心偏离度量基础上,本文提出一种新的密度聚类算法DBSCANCD。该算法可以有效地把相邻密度分布不均匀的或具有层次特性的簇区分出来,并提供簇的相邻信息及合并方法。 本文的主要贡献首先在于提出了一种新的边界检测度量。这个度量可以有效地应用于密度分布不均匀的条件下。由于本文的思想可以在不改变密度聚类的算法框架下实现,因此,除了可以改进经典的DBSCAN算法,还可以改进大部分的基于密度的聚类算法,并且时间复杂度不会增加。其次,本文基于质中心偏离思想提出了簇的相邻度计算方法,用以分析簇与簇之间的关系。由于基于质中心偏离思想实现的新算法能够比较简单地把相邻密度分布不均匀的或具有层次特性的簇区分出来,因此,提供簇与簇之间的相邻信息及簇与簇之间的合并方法对算法使用者很有意义。 利用具有不同分布特性的数据集对DBSCANCD算法的有效性和性能进行测试分析,实验表明,DBSCANCD算法取得了较好的聚类结果和具有较高的性能。
其他文献
优化理论与算法是一个重要的数学分支,它所研究的问题是讨论在众多的方案中什么样的方案最优以及怎样找出最优方案,计算出最优的解。由于这类问题普遍存在,所以优化技术一直受到
本文首先介绍了欧氏空间Cn中某些域的边界型Schwarz引理;其次利用多复变数的边界型Schwarz引理得到了单位球Bn上的正规化双全纯星形映射族及其子族和正规化双全纯β型螺形映
相关性的分析在金融中发挥着越来越重要的作用。本文着重应用Yang etal.(2006)的二维copula分解的方法,使用Fréchet Copula逼近两个随机变量之间的相关结构。应用数值逼近法
Grobner-Shirshov基理论是上个世纪60到70年代发展起来的一个崭新的代数学分支.目前它在数学的各个领域,特别是在李代数、结合代数、群论、半群理论、计算代数和机器证明等方面
简介QN型气敏元件,是以二氧锡为主,适量掺以有用的杂质,在高温下烧结而成的多晶体,属n型材料,遇可燃性气体时,其电阻减小。QN型气敏元件在其内部丝极加热到250℃~300℃后,接
自Dawson与Fleischmann(1997)首次引入测度值意义下的催化分枝过程以来,在这个方向有了许多工作.本文的主要目的是考虑带移民的离散状态催化分枝模型,我们称之为催化DBI-过程.此
复杂网络描述的是现实世界中的系统,即复杂系统的高度抽象.如科研合作网、万维网、生物网中的新陈代谢网、因特网、电力网、航空网、语言网和引文网等.而现实的很多复杂网络由
本文研究了线形方程组Ax=b预处理后的一些迭代解法.给出了改进的高斯-塞德尔(GS)方法的一些理论分析.首先,当系数矩阵是弱不可约的,给出了改进的GS方法和GS方法之间的一些比较结
在过去的十几年里,互联网一直呈爆炸式飞速发展,如今它已经成为人们创造和获取信息的重要载体,是人们学习、生活以及休闲娱乐的重要组成部分。互联网上不断有新的网站、网页出现
本文以经典Banach空间的几何理论为基础,通过讨论Banach空间上连续C2H泛函,C2H泛函锥的性质,并讨论在C2H泛函锥上的Hahn-Banach定理,Riesz表示定理以及C2H泛函对偶空间的性质.