论文部分内容阅读
数据挖掘是数据库知识发现的重要组成部分,它通过特定的算法分析大量的含有噪声的数据,从而获取隐含于原始数据中的事先不为人所知的信息,为用户提供决策支持。作为一种重要的数据挖掘方法,聚类技术只需要极少的先验知识就能够对数据进行分析。近年来,随着信息技术的发展,数据规模呈指数倍增长,数据形态也快速多样化,传统的聚类算法已经越来越难以满足技术的需要,能够处理海量复杂数据集的聚类算法开始成为主流。本论文将对人工免疫网络聚类算法进行改进,并在此基础上结合Balanced Iterative Reducing and Clustering usingHierarchies(BIRCH)算法,提出一种针对大规模数据集的改进的人工免疫网络聚类方法,使之能够处理大规模流数据。本文主要工作如下:1)提出了一种基于Kernel PCA的改进的人工免疫网络聚类算法。改进分为两个步骤:a)为解决原始的人工免疫网络聚类算法(aiNet)对噪声敏感的问题,引入了刺激度策略,使算法能够识别网络中的噪声节点并予以清除,以提高算法的抗噪能力。同时,用新设计的竞争选择方法代替原始算法中的网络抑制方法,使算法能够选择出局部最优的网络节点。最终得到一个改进的人工免疫网络算法(im_aiNet);b)在im_aiNet的基础上,通过结合Kernel PCA方法,得到基于Kernel PCA的改进的人工免疫网络聚类算法(Kernel PCA im_aiNet),进一步提高了算法处理分布复杂数据集的能力。在对比实验中,本算法和其他聚类算法分别在人工数据集和UCI数据集上进行了比较,表现出了较好的性能。2)把人工免疫网络应用于大规模数据集的处理上,提出了一种基于BIRCH和人工免疫网络的大规模数据聚类算法。相对传统的聚类算法,人工免疫网络聚类算法能够更好地适应非凸数据集,而且不需要给定聚类类别数,但是它是一个基于生物学原理设计的算法,需要较长的演化时间,并不适应大规模数据集的处理。因此,我们提出了基于BIRCH和人工免疫网络的两步聚类方法:第一步,使用BIRCH算法对大规模数据集进行粗划分,把原始数据集划分为很多均匀的小块;第二步,使用人工免疫网络聚类算法对这些小块进行细化分,最终得到聚类结果。本算法结合了BIRCH算法和人工免疫网络算法的优点,同时又避免了它们各自的缺点,使算法发挥出更好的准确性和稳定性,在对比实验中也反应了这一点。3)对基于BIRCH和人工免疫网络的大规模数据聚类算法进行改进,将其应用于流数据的分析和处理上,提出了一种基于BIRCH和人工免疫网络的大规模流数据聚类算法。在人们的生活和实践中会产生大量的数据,而这些数据会随时间不断增加,形成数据流,因此流数据的处理也变得越来越重要。本算法初步实现了对流数据的聚类,算法能够得到和原始数据流结构一致的精简数据集合,并在数据流结构改变时自动输出新的精简数据集同时给出聚类结果。在仿真实验中也显示出本算法具有较好性能。本文得到如下基金资助:教育部新世纪优秀人才支持计划(No.NCET-12-0920),国家自然科学基金(Nos.61272279,61001202和61203303),高校基本科研业务费(Nos. K5051302049, K5051302023, K5051302002和K5051302028)和“111”创新引智计划(No.B07048)。