聚类算法的研究与应用

来源 :复旦大学 | 被引量 : 0次 | 上传用户:cairing
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着计算机技术和互联网的快速发展,人们生产、收集数据的能力不断提高,商业管理、政府部门、科研机构与工程技术等领域的数据量以前所未有的速度海量增长。面对海量数据,如何从这些大规模数据中找到数据之间的模式,以提取信息、建立知识资源,从而避免“数据丰富而知识匮乏”的局面,已经成为一个迫切需要解决的课题。 基于数据库的知识发现(Knowledge Discovery in Database,简称KDD)是指从大量数据中提取有效的、新颖的、潜在有用的和最终可被理解的模式的非平凡过程。它是一个反复迭代的人机交互处理过程,该过程需要经历多个步骤,主要包括数据整理、数据挖掘(Data Mining)和结果的解释评估。其中数据挖掘是整个KDD过程中最核心的步骤,数据挖掘的目的就是运用特定的数据挖掘算法,从数据库中提取用户感兴趣的知识,并以一定的方式表示出来,如树、表、规则、图等。 聚类分析是数据挖掘的最主要的功能之一,聚类就是将数据对象分组为多个类或簇,在同一个簇中的对象之间具有较高的相似度,而不同簇中的对象差别较大。聚类分析是一个很活跃的研究领域,是用以发现数据分布和模式的一类重要技术:聚类算法广泛应用于模式识别、数据分析、图像处理、数据挖掘、决策支持和市场营销等研究领域。本文将重点研究聚类分析中的若干关键技术和算法。 在第一章中,首先就数据挖掘进行概述,主要讨论数据挖掘的产生、发展以及数据挖掘算法所实现的各种功能,主要包括:类/概念描述、关联规则、分类与回归、聚类分析、序列与时序分析以及孤立点分析等。最后给出了本文研究的主要内容和组织结构。 在第二章中,首先介绍了聚类分析的定义,聚类算法的基本要求,以及聚类算法中用到的主要数据类型;然后讨论聚类分析的各种算法:基于划分的方法、基于层次的方法、基于密度的方法、基于网格的方法以及基于模型的方法;最后对聚类算法的应用领域进行了探讨。 在第三章中,简要介绍了半监督聚类分析的概念、研究目的,以及现有算法的分类。 在第四章中,首先系统介绍了PAM聚类算法,分析该聚类算法的关键技术和主要思想;然后在原有算法基础上,本文给出了一种改进算法:对属于K-中心点算法的PAM算法的进行效率改进,提出了一种新的利用三角不等式消除、部分距离搜索等策略的快速PAM聚类算法,在保证聚类准确率的同时提高了聚类效率;拓展了原有算法的聚类能力。实验结果表明,相对于基本PAM聚类算法,在保持相同聚类效果的情况下,本文提出的快速PAM聚类新算法能够减少70%~90%的乘法计算量;并可节省约1/3以上的计算时间。第五章对论文进行了总结,介绍本文的主要内容和主要贡献,并对进一步的研究和需要完善的问题提出了看法。
其他文献
电子假腭是研究人发音特点的一种设备。它能够检测人在发音状态下舌头与上腭的触碰情况,根据舌腭的接触情况来预测舌头的大致运动轨迹。目前许多国家和地区都有对它进行研究
随着多媒体计算机技术和通信技术的不断发展,网络所传输的信息越来越丰富,当前以Internet为代表的网络正朝着多媒体综合业务发展,多媒体通信已经成为当今通信领域的一个热点
随着时代的发展,我们进入了信息社会,特别是随着互联网的飞速发展,信息几乎是呈指数级增长。信息的日益增长使人们可以通过各种方式来获得他们想要的信息。而各种信息检索工具和
当今,社会已经进入了网络信息时代,计算机与网络信息技术的飞速发展使得各个领域的数据和信息急剧增加(信息爆炸),同时人类的参与使数据与信息系统中的不确定性更加显著。如
对于软件系统特别是大型复杂软件系统,由于分析和理解的困难性,其系统维护或系统演化任务异常艰巨,且成本开销巨大。程序理解辅助工具是增强软件分析和程序理解的支撑环境,它
虚拟仪器就是利用现有的计算机,配上相应的硬件和专用软件,形成既有普通仪器的基本功能,又有一般仪器所没有的特殊功能的高档低价的新型仪器。这种技术实质上是充分利用最新
随着社会的发展和生活品质的提高,人们在追求产品的美观、豪华之余对产品的耐久性提出了更高的要求。产品在使用中因疲劳而出现故障,带来的不仅仅是产品的淘汰,更严重的会危
在计算机技术飞速发展的今天,人们对计算机系统的依赖性越来越高。而在造成计算机系统错误的因素中,软件占了绝大部分。随着软件体系规模的日益增大及其复杂性的日益增强,软件的
随着网络技术,特别是Internet技术的发展和普及,网络教学已成为目前网络应用的一个重要方向。国家教育部根据当前的教育形势,适时提出了以“建设精品课程”为主要内容的质量
EFI(Extensive Firmware Interface)规范定义了操作系统与平台固件之间的面向对象式的崭新接口模型,这些接口将平台(CPU,内存,总线,外设)相关信息及其操作、供OS加载器(OS Lo