海量高维数据聚类算法的研究

来源 :长春工业大学 | 被引量 : 0次 | 上传用户:george890120
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近十年来,数据挖掘逐渐成为数据库和人工智能等研究领域的一个热点。聚类(clustering)是数据挖掘中重要的研究课题之一。通过聚类,人们能够识别密集的和稀疏的区域,发现全局的分布模式和数据属性之间的有趣的相互关系。在数据挖掘中,聚类分析能作为一个独立的工具来获得数据分布的情况,观察每个簇的特点,集中对特定的某些簇做进一步的分析。此外,聚类分析还可以作为其他算法(如特征和分类等)的预处理步骤,这些算法再在生成的簇上进行处理。 迄今为止,研究人员已经提出了许多聚类算法,但是在很多方面还有待于进一步发展,如海量数据的处理,高维数据的聚类,子空间聚类,带有约束条件的聚类,数据流聚类等。由于数据库中收集了大量的数据,一个数据库或数据仓库可能包含若干维或者属性,而目前一些聚类算法只是擅长处理低维数据和小型数据库。因此,对海量高维数据的聚类算法研究是十分有意义的。本文对海量高维数据的聚类算法进行了一定的研究,主要工作包括: 1.对传统的经典聚类算法进行了研究和比较,详细介绍了这些经典算法的基本思想,实现步骤及其优缺点和适用范围。 2.提出把高维聚类过程分解成多个阶段的二维聚类过程,然后和其他低维聚类方法相结合,从而实现对高维数据集的聚类。 3.对传统DBSCAN算法进行改进,使之适合大型数据库的聚类。 4.从算法的复杂度和实验结果说明该算法对海量高维数据聚类的有效性。
其他文献
计算机技术、微电子技术、低功耗多传感器技术和无线通信等技术的迅猛发展,推动了无线传感器网络的快速发展。无线传感器网络由于自身的优点,引起了国内外学术界和社会的广泛
随着社会信息化水平的提高,以IC卡为关键技术的“一卡通”系统将在各行业信息管理系统建设中扮演越来越重要的角色。  所谓“一卡通”系统,一般认为就是以IC卡技术为核心,结合
数据仓库的出现和发展是计算机应用发展到一定阶段的必然产物。其权威的定义是:“数据仓库是支持管理决策过程的、面向主题的、集成的、随时间而变的、持久的数据集合。”
在计算机技术日渐普及的今天,各单位都迫切需要一套能够实现其业务流程自动化的办公系统,工作流技术就是近年来许多开发人员和用户关注的一种办公系统开发技术。将工作流技术融
本文在概述了数据挖掘基本原理的基础上,首先介绍了Web挖掘的基本概念、分类和面临的挑战,然后重点讨论了Web日志挖掘,即通过用户对站点的使用情况分析有价值的信息.介绍了We
长期以来,挖掘频繁模式主要采用Apriori算法及其改进形式,这类算法需要产生大量候选项集,并反复扫描数据库,降低了挖掘的效率。FP-growth算法是一种基于模式增长的频繁模式挖
获取真实物体的三维模型在虚拟现实、CAD反向工程、模式识别、不良产品检测以及人体非接触测量等领域应用非常广泛.本文通过对多视点深度图像配准算法和三维曲面重建理论进行
出租车寻呼系统由手持端、车载端和调度中心三部分组成.手持端定位在实现了GPS全球定位系统功能的手机上;车载端是一个实现了接受GPS定位功能、GSM短消息收发功能和嵌入式电
随着视频编码及其应用的发展,高效的视频编码和实时通讯技术显得越来越重要。H.264是目前最新的视频编码标准。与现有的视频编码标准H.261、H.263和MPEG-1、MPEG-2、MPEG-4相
软件测试在软件生存期中占有十分重要的位置,是软件质量保证的重要手段。当一个软件开发完成后,能否实际地投入运行并准确无误地完成任务,软件的质量是关键。针对如何确保软