论文部分内容阅读
随着计算机技术和互联网的快速发展,人们生产、收集数据的能力不断提高,商业管理、政府部门、科研机构与工程技术等领域的数据量以前所未有的速度海量增长。面对海量数据,如何从这些大规模数据中找到数据之间的模式,以提取信息、建立知识资源,从而避免“数据丰富而知识匮乏”的局面,已经成为一个迫切需要解决的课题。
基于数据库的知识发现(Knowledge Discovery in Database,简称KDD)是指从大量数据中提取有效的、新颖的、潜在有用的和最终可被理解的模式的非平凡过程。它是一个反复迭代的人机交互处理过程,该过程需要经历多个步骤,主要包括数据整理、数据挖掘(Data Mining)和结果的解释评估。其中数据挖掘是整个KDD过程中最核心的步骤,数据挖掘的目的就是运用特定的数据挖掘算法,从数据库中提取用户感兴趣的知识,并以一定的方式表示出来,如树、表、规则、图等。
聚类分析是数据挖掘的最主要的功能之一,聚类就是将数据对象分组为多个类或簇,在同一个簇中的对象之间具有较高的相似度,而不同簇中的对象差别较大。聚类分析是一个很活跃的研究领域,是用以发现数据分布和模式的一类重要技术:聚类算法广泛应用于模式识别、数据分析、图像处理、数据挖掘、决策支持和市场营销等研究领域。本文将重点研究聚类分析中的若干关键技术和算法。
在第一章中,首先就数据挖掘进行概述,主要讨论数据挖掘的产生、发展以及数据挖掘算法所实现的各种功能,主要包括:类/概念描述、关联规则、分类与回归、聚类分析、序列与时序分析以及孤立点分析等。最后给出了本文研究的主要内容和组织结构。
在第二章中,首先介绍了聚类分析的定义,聚类算法的基本要求,以及聚类算法中用到的主要数据类型;然后讨论聚类分析的各种算法:基于划分的方法、基于层次的方法、基于密度的方法、基于网格的方法以及基于模型的方法;最后对聚类算法的应用领域进行了探讨。
在第三章中,简要介绍了半监督聚类分析的概念、研究目的,以及现有算法的分类。
在第四章中,首先系统介绍了PAM聚类算法,分析该聚类算法的关键技术和主要思想;然后在原有算法基础上,本文给出了一种改进算法:对属于K-中心点算法的PAM算法的进行效率改进,提出了一种新的利用三角不等式消除、部分距离搜索等策略的快速PAM聚类算法,在保证聚类准确率的同时提高了聚类效率;拓展了原有算法的聚类能力。实验结果表明,相对于基本PAM聚类算法,在保持相同聚类效果的情况下,本文提出的快速PAM聚类新算法能够减少70%~90%的乘法计算量;并可节省约1/3以上的计算时间。第五章对论文进行了总结,介绍本文的主要内容和主要贡献,并对进一步的研究和需要完善的问题提出了看法。