聚类算法的研究与应用

来源 :复旦大学 | 被引量 : 0次 | 上传用户：cairing

【摘要】

：

随着计算机技术和互联网的快速发展，人们生产、收集数据的能力不断提高，商业管理、政府部门、科研机构与工程技术等领域的数据量以前所未有的速度海量增长。面对海量数据，如何从

【作者】

：

林建仁

【机构】

：

复旦大学

【出处】

：

复旦大学

【发表日期】

：

2007年期

【关键词】

：

数据挖掘聚类算法 PAM算法搜索策略计算复杂度

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

随着计算机技术和互联网的快速发展，人们生产、收集数据的能力不断提高，商业管理、政府部门、科研机构与工程技术等领域的数据量以前所未有的速度海量增长。面对海量数据，如何从这些大规模数据中找到数据之间的模式，以提取信息、建立知识资源，从而避免“数据丰富而知识匮乏”的局面，已经成为一个迫切需要解决的课题。基于数据库的知识发现(Knowledge Discovery in Database，简称KDD)是指从大量数据中提取有效的、新颖的、潜在有用的和最终可被理解的模式的非平凡过程。它是一个反复迭代的人机交互处理过程，该过程需要经历多个步骤，主要包括数据整理、数据挖掘(Data Mining)和结果的解释评估。其中数据挖掘是整个KDD过程中最核心的步骤，数据挖掘的目的就是运用特定的数据挖掘算法，从数据库中提取用户感兴趣的知识，并以一定的方式表示出来，如树、表、规则、图等。聚类分析是数据挖掘的最主要的功能之一，聚类就是将数据对象分组为多个类或簇，在同一个簇中的对象之间具有较高的相似度，而不同簇中的对象差别较大。聚类分析是一个很活跃的研究领域，是用以发现数据分布和模式的一类重要技术：聚类算法广泛应用于模式识别、数据分析、图像处理、数据挖掘、决策支持和市场营销等研究领域。本文将重点研究聚类分析中的若干关键技术和算法。在第一章中，首先就数据挖掘进行概述，主要讨论数据挖掘的产生、发展以及数据挖掘算法所实现的各种功能，主要包括：类／概念描述、关联规则、分类与回归、聚类分析、序列与时序分析以及孤立点分析等。最后给出了本文研究的主要内容和组织结构。在第二章中，首先介绍了聚类分析的定义，聚类算法的基本要求，以及聚类算法中用到的主要数据类型；然后讨论聚类分析的各种算法：基于划分的方法、基于层次的方法、基于密度的方法、基于网格的方法以及基于模型的方法；最后对聚类算法的应用领域进行了探讨。在第三章中，简要介绍了半监督聚类分析的概念、研究目的，以及现有算法的分类。在第四章中，首先系统介绍了PAM聚类算法，分析该聚类算法的关键技术和主要思想；然后在原有算法基础上，本文给出了一种改进算法：对属于K-中心点算法的PAM算法的进行效率改进，提出了一种新的利用三角不等式消除、部分距离搜索等策略的快速PAM聚类算法，在保证聚类准确率的同时提高了聚类效率；拓展了原有算法的聚类能力。实验结果表明，相对于基本PAM聚类算法，在保持相同聚类效果的情况下，本文提出的快速PAM聚类新算法能够减少70％～90％的乘法计算量；并可节省约1/3以上的计算时间。第五章对论文进行了总结，介绍本文的主要内容和主要贡献，并对进一步的研究和需要完善的问题提出了看法。

其他文献

电子假腭系统的设计与应用

电子假腭是研究人发音特点的一种设备。它能够检测人在发音状态下舌头与上腭的触碰情况,根据舌腭的接触情况来预测舌头的大致运动轨迹。目前许多国家和地区都有对它进行研究

学位

电子假腭舌腭接触信号采集信号对齐

基于SIP协议多媒体软电话的研究与实现

随着多媒体计算机技术和通信技术的不断发展,网络所传输的信息越来越丰富,当前以Internet为代表的网络正朝着多媒体综合业务发展,多媒体通信已经成为当今通信领域的一个热点

学位

会话初始协议软电话VOIP实时传输协议LZW算法

基于语义网描述语言的信息检索系统

随着时代的发展，我们进入了信息社会，特别是随着互联网的飞速发展，信息几乎是呈指数级增长。信息的日益增长使人们可以通过各种方式来获得他们想要的信息。而各种信息检索工具和

学位

语义网本体OWL语义检索

概念格建格算法的研究

当今,社会已经进入了网络信息时代,计算机与网络信息技术的飞速发展使得各个领域的数据和信息急剧增加(信息爆炸),同时人类的参与使数据与信息系统中的不确定性更加显著。如

学位

数据挖掘知识发现粗糙集形式概念分析概念格建格算法串行算法边缘概念同类概念并行构造

基于认知过程的程序理解支持环境研究与实现

对于软件系统特别是大型复杂软件系统,由于分析和理解的困难性,其系统维护或系统演化任务异常艰巨,且成本开销巨大。程序理解辅助工具是增强软件分析和程序理解的支撑环境,它

学位

软件导航认知过程程序理解逆向工程软件维护

基于多Agent协作的网络虚拟仪器实验室的研究

虚拟仪器就是利用现有的计算机,配上相应的硬件和专用软件,形成既有普通仪器的基本功能,又有一般仪器所没有的特殊功能的高档低价的新型仪器。这种技术实质上是充分利用最新

学位

多Agent虚拟仪器协作LabVIEWJADE

耐久性测试中通用型控制平台的研究与应用

随着社会的发展和生活品质的提高,人们在追求产品的美观、豪华之余对产品的耐久性提出了更高的要求。产品在使用中因疲劳而出现故障,带来的不仅仅是产品的淘汰,更严重的会危

学位

耐久性测试脚本解析通用型控制平台嵌入式系统汽车试验

基于神经网络的软件可靠性预测研究与应用

在计算机技术飞速发展的今天，人们对计算机系统的依赖性越来越高。而在造成计算机系统错误的因素中，软件占了绝大部分。随着软件体系规模的日益增大及其复杂性的日益增强，软件的

学位

软件可靠性预测神经网络可靠性模型

基于Struts的精品课程网站开发平台的应用研究

随着网络技术,特别是Internet技术的发展和普及,网络教学已成为目前网络应用的一个重要方向。国家教育部根据当前的教育形势,适时提出了以“建设精品课程”为主要内容的质量

学位

精品课程StrutsJava EE

基于Intel多核平台的EFI/Tiano图形界面系统研究

EFI(Extensive Firmware Interface)规范定义了操作系统与平台固件之间的面向对象式的崭新接口模型,这些接口将平台(CPU,内存,总线,外设)相关信息及其操作、供OS加载器(OS Lo

学位

EFITiano多核双核多线程多进程NUWA图形界面系统图形抽象层输入抽象层

聚类算法的研究与应用

其他学术论文