论文部分内容阅读
从20世纪60年代数据库技术出现至今,数据库的发展经历了很多形态,如文件管理、层次和网络数据库、关系型数据库、面向对象的数据库、关系一对象型数据库等。在这些历程中,数据库技术不断发展和成熟,并不断与各种信息系统相结合,在各行各业得到了深入而广泛的应用。与此同时,数据库本身积累了大量的数据,为了充分发挥这些数据的价值,数据挖掘技术应运而生。聚类分析作为数据挖掘领域最为重要的几种数据分析方法之一,吸引了众多研究者的兴趣。有的专家、学者致力于研究各种具有低空间要求度,低时间要求度的有效聚类算法,有的倾向于研究如何将聚类分析与实际问题相结合。尽管如此,聚类分析仍然面临两个难题:一是各种聚类算法聚类能力及聚类结果簇的可视化描述问题;二是聚类效果的评估问题。由于聚类数据集千奇百态、聚类算法各式各样、聚类结果形态各异,我们不可能找到能够同时克服上述两大困难的一种通用方法。聚类结果簇体是具体聚类算法与实际数据集相互作用的产物,其一方面暗含了聚类算法、数据集自然结构信息,另一方面还蕴含聚类合理性信息,能够为聚类效果评估提供反馈信息。因此本论文从聚类结果簇形态分类分析、识别的角度出发,选择类圆簇作为代表,研究了聚类结果簇形态识别的一般过程、识别算法和识别意义。
本研究分为五个部分:第一部分是绪论,交代了研究的意义、目的、假设等。第二部分,论文对传统图形识别领域的文献进行了综述。该部分主要围绕三个问题(形状识别过程,常用的形状识别算法,类圆形状识别算法)进行,回顾了传统形状识别理论的识别过程,剖析了传统图形识别方法的原理,评价了各种识别方法的优缺点,指出了方法在运用到聚类结果簇分析中的局限性。第三部分提出了一种能够用于聚类结果簇识别的算法----基于多维度映射的类圆簇识别算法。算法以聚类结果簇和标准类圆簇间存有的特征差异作为判定依据,按次序对聚类结果簇逐个识别。算法首先对单个结果簇所对应的数据集进行预处理,并将它标准化。随后算法对标准化的数据集按维度逐一进行分组,并统计各组频数,绘制各个维度上的频数曲线,分析各条频数曲线差异性。紧接着,算法统计在多维度映射下,标准化数据集在各个维度中的各项统计指标,如偏度、峰度、内径、内径比等,同时将这些统计指标与标准类圆簇所对应的独特指标下的阀值进行比较。最终,算法根据频数曲线走势的差异性信息、指标比较所得信息做出待识别簇是否为类圆簇的判定。算法层次分明,操作简单,在高、低维度数据集所形成的结果簇中都适用,而且算法具有较低的时间和空间复杂度要求。第四部分设计了多种实验用来检测算法。其中,“多聚类结果簇中类圆簇识别实验”与“多个椭圆簇比较识别实验”都是为了检验算法的健壮性,即在众多聚类结果簇中算法能否成功识别出类圆簇;“带有噪声的类圆簇识别实验”则是为了检验算法的抗干扰性,即在噪声干扰的情况下算法是否依然能够识别出数据集中的类圆簇。“高维度数据中的类圆簇识别实验”则主要是为了检验算法在高维度空间中的适用性。实验的结果证明算法具备健壮性、很好的鲁棒性和可拓展性。第五部分对论文工作进行了总结,详细说明了算法的优缺点,算法在聚类算法自动选择、簇体特征描述、聚类结果评估方面所体现的价值。同时为后续研究提出了切实可行的建议。
本研究贡献及创新点在于:⑴聚类结果簇形态各异,以类圆簇为代表,基于传统的形状识别理论,提出了一种新的能够适用于数据挖掘中聚类结果簇识别的算法。算法经过四种实验情景,22个涵盖高、中、低维度的数据集检验表明,新算法具有很强的抗干扰性、健壮性、可拓展性、较低的时间和空间复杂度要求;⑵传统聚类趋势分析的工作重心大多停留在数据集的可聚性、可聚结果簇数目上,本文在这些研究的基础上,考虑了聚类结果簇的形态特征,并以类圆簇识别作为代表,提供了一种对数据集可聚性及聚类形态特征进行综合探析的有效方法,其不仅可以解决数据集中是否存有簇结构的问题,同时还能够进一步提供关于数据集簇结构形态特征的信息,方便研究者更好地理解数据集;⑶由于缺乏数据集自然结构特征,聚类结果簇的评估往往在无监督的条件下进行。本文通过对聚类结果簇形态的识别,有效地反馈了数据集簇体结构信息,给研究者进行聚类算法的选择、有监督的簇评估等工作提供了帮助。