论文部分内容阅读
在高度信息化的今天,产生的海量数据和新型数据集都对传统的数据分析技术形成挑战。数据挖掘不断突破这些挑战带来的种种局限性,为当今信息技术的发展奠定了基础。作为数据挖掘的一项重要任务,异常点检测可能会导致意想不到的知识发现,也越来越引起研究者的重视。
但是,传统的异常点检测算法中,要么直接检测出异常点,而忽略了数据的自然结构,要么可以评估每个数据对象的异常点得分,却忽略了异常点与各簇之间的联系。然而,有时把异常点得分和聚类方法结合起来有利于对异常点与簇关系的研究。
从把聚类方法和异常点检测方法结合起来研究异常点与簇的联系的思想出发,本文提出了基于数学形态学的模糊异常点检测算法。该算法把数学形态学的聚类结果和基于连接的异常点检测的结果统一到一个模糊模型中,从异常隶属度和模糊隶属度这两个方面来分析对象与簇集的模糊关系。簇集包括通过聚类得到的真实簇和一个由异常点组成的虚拟的异常簇。算法通过两个步骤实现:首先,计算对象与异常簇的初始的异常隶属度;然后,计算对象与簇的模糊隶属度,并通过迭代的方法,改进对象与簇集的模糊关系,从而得到与各簇相关联的异常点。
基于数学形态学的模糊异常点检测算法可以通过综合比较分析对象与各簇的模糊关系来判断异常点,能满足更高要求的检测目标。同时,数学形态学聚类方法和基于连接的异常点检测方法的结合,使得算法对无论是点状、线状,还是凸面形状、非凸面形状等数据集,和变密度数据集都能够适应,还考虑了异常点“局部”的概念。通过在模拟数据集上的实验证明,该算法能够对复杂面状和变密度的数据集,正确、高效地找出异常点,同时发现与异常点相关联的簇信息,对异常点本身的意义具有启发作用。