论文部分内容阅读
近年来,互联网、物联网、云计算等信息技术日新月异,人们的生活越来越便利,人与人、人与物之间的交流越来越频繁。与此同时,人类社会产生的数据量也迎来了爆炸式的增长。伴随着大数据时代的到来,数据呈现出大量、高速、多样、低价值密度的特点,给传统的数据处理技术带来了巨大的挑战。为了挖掘大数据中隐藏的有价值的信息,数据挖掘技术应运而生。聚类分析作为数据挖掘技术一个重要的分支,可以发现数据集的内部结构,对于成功挖掘数据中有价值的信息具有重要的作用。然而传统的硬聚类算法只用一个集合来表示单个簇,对于完整表示出数据集的内部结构具有很大的局限性。为了使聚类结果能够更好的描述出数据集本身的结构特征,针对不同的应用背景,提出了多种软聚类方法。三支聚类作为一种特殊的软聚类,融合了三支决策的思想。在三支聚类中,一个簇由一对被称为核心域和边界域的集合来表示。确定的元素被分配到核心域,不确定的元素被分配到边界域,以减少决策风险。本文将数学形态学中腐蚀和膨胀的思想与三支决策理论相结合,提出了一种三支聚类模型CE3。本文的主要内容分为三个部分。(1)提出了一种基于数学形态学的CE3模型,将二支聚类结果转化为三支聚类结果。CE3的基本思想是利用收缩和扩张操作,重构从硬聚类方法中获得的聚类结果。收缩操作缩小类簇,使得簇中数据对象之间的关系更加牢固,得到核心域。扩张操作放大类簇,使得簇中的数据对象之间的关系变弱,得到扩张域。核心域和扩张域的差集称为边界域。在CE3模型下,通过选取不同的结构算子,就可以生成不同的三支聚类算法。(2)在CE3模型下采用数据对象的q近邻作为结构算子,提出了一种三支聚类算法。传统的硬聚类算法由于只能将某个元素划分到单个簇中,并不能区分位于两个簇边界上的点。三支聚类结果由于其良好的聚类结构,为这个难题提供了解决方案。利用数据元素的q近邻作为结构算子,通过分析数据元素的q近邻与相邻簇中数据元素的关系,扩张得到扩张域,收缩得到核心域,再将核心域和扩张域做差得到边界域。将聚类结果用核心域和边界域来表示,使得聚类结果具有更好的结构特征。实验结果表明,该方法无论在聚类结果的结构上,还是在精度上都有很好的提升。(3)在CE3模型下采用数据对象的邻域密度作为结构算子,提出了一种三支聚类算法。该算法利用元素的邻域密度在二支聚类的结果上进行收缩和扩张得到三支聚类结果。该算法不仅能够识别出同时位于两个簇中间的边界点,还能够识别出单个簇内离簇中心较远的点。该算法的聚类结果比经典的聚类算法有较大的改进。实验表明,该方法使聚类结果的DBI更小,平均轮廓系数更大,准确率更高。