改进的人工免疫网络算法及其大规模数据聚类研究

来源 :西安电子科技大学 | 被引量 : 0次 | 上传用户:bm_imba
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
数据挖掘是数据库知识发现的重要组成部分,它通过特定的算法分析大量的含有噪声的数据,从而获取隐含于原始数据中的事先不为人所知的信息,为用户提供决策支持。作为一种重要的数据挖掘方法,聚类技术只需要极少的先验知识就能够对数据进行分析。近年来,随着信息技术的发展,数据规模呈指数倍增长,数据形态也快速多样化,传统的聚类算法已经越来越难以满足技术的需要,能够处理海量复杂数据集的聚类算法开始成为主流。本论文将对人工免疫网络聚类算法进行改进,并在此基础上结合Balanced Iterative Reducing and Clustering usingHierarchies(BIRCH)算法,提出一种针对大规模数据集的改进的人工免疫网络聚类方法,使之能够处理大规模流数据。本文主要工作如下:1)提出了一种基于Kernel PCA的改进的人工免疫网络聚类算法。改进分为两个步骤:a)为解决原始的人工免疫网络聚类算法(aiNet)对噪声敏感的问题,引入了刺激度策略,使算法能够识别网络中的噪声节点并予以清除,以提高算法的抗噪能力。同时,用新设计的竞争选择方法代替原始算法中的网络抑制方法,使算法能够选择出局部最优的网络节点。最终得到一个改进的人工免疫网络算法(im_aiNet);b)在im_aiNet的基础上,通过结合Kernel PCA方法,得到基于Kernel PCA的改进的人工免疫网络聚类算法(Kernel PCA im_aiNet),进一步提高了算法处理分布复杂数据集的能力。在对比实验中,本算法和其他聚类算法分别在人工数据集和UCI数据集上进行了比较,表现出了较好的性能。2)把人工免疫网络应用于大规模数据集的处理上,提出了一种基于BIRCH和人工免疫网络的大规模数据聚类算法。相对传统的聚类算法,人工免疫网络聚类算法能够更好地适应非凸数据集,而且不需要给定聚类类别数,但是它是一个基于生物学原理设计的算法,需要较长的演化时间,并不适应大规模数据集的处理。因此,我们提出了基于BIRCH和人工免疫网络的两步聚类方法:第一步,使用BIRCH算法对大规模数据集进行粗划分,把原始数据集划分为很多均匀的小块;第二步,使用人工免疫网络聚类算法对这些小块进行细化分,最终得到聚类结果。本算法结合了BIRCH算法和人工免疫网络算法的优点,同时又避免了它们各自的缺点,使算法发挥出更好的准确性和稳定性,在对比实验中也反应了这一点。3)对基于BIRCH和人工免疫网络的大规模数据聚类算法进行改进,将其应用于流数据的分析和处理上,提出了一种基于BIRCH和人工免疫网络的大规模流数据聚类算法。在人们的生活和实践中会产生大量的数据,而这些数据会随时间不断增加,形成数据流,因此流数据的处理也变得越来越重要。本算法初步实现了对流数据的聚类,算法能够得到和原始数据流结构一致的精简数据集合,并在数据流结构改变时自动输出新的精简数据集同时给出聚类结果。在仿真实验中也显示出本算法具有较好性能。本文得到如下基金资助:教育部新世纪优秀人才支持计划(No.NCET-12-0920),国家自然科学基金(Nos.61272279,61001202和61203303),高校基本科研业务费(Nos. K5051302049, K5051302023, K5051302002和K5051302028)和“111”创新引智计划(No.B07048)。
其他文献
近年来,随着我国人口老龄化问题的日益严峻,养老问题越来越受到社会的广泛关注,而老年人居住问题是养老问题的最关键性内容,若想提高老年人的生活质量,必须建设符合老年人实
肺癌的发病率较高,在男性和女性群体中其致死率均居所有肿瘤类型之首。非小细胞肺癌起源于支气管上皮细胞,约占肺癌病人的85%。吸烟是肺癌的主要致病因素。随着全球化和工业化的
建筑空间舒适性、审美性要求的提升促使建筑装饰成为衡量建筑产品质量的重要标准.本文分析建筑装饰施工质量管理,引入全过程管理的概念,对装饰施工质量管理要点进行总结,供借
海上目标的探测一直是雷达技术领域的热点问题,而对海杂波中目标的检测也一直是雷达信号处理中最复杂的问题之一。本文主要介绍了某舰载雷达的脉冲压缩及其旁瓣抑制技术和海杂
在当今我国经济快速发展的背景下,建筑行业的装饰工程也取得了突飞猛进的成就,很多新的技术和工艺开始广泛应用于建筑装饰工程中.各种新工艺的融入不仅有效提高了建筑装饰的
母体效应能影响后代适合度,生活史进化以及种群动态。近年来,母体效应对于生物生态适应和进化进程的重要性受到了生态学家和进化生物学家的广泛关注。对于卵生爬行动物,母体的巢
第三代移动通信系统的多频、多模和多标准等问题,使得软件无线电数字中频技术将逐渐成为未来直放站技术的主流。现有的商用集成电路芯片都是针对基站而设计,功能强大但庞杂,而且
卫生害虫和农业害虫给人类的生活和生产带来了巨大的损失,以蚊媒为代表的医学害虫能够传播多种严重疾病,对人类的健康带来了巨大的威胁;以鳞翅目昆虫为代表的农业害虫也对人类的
传感器领域研究是本世纪信息产业三大重要课题之一。传感系统的核心是传感器和信号数据处理两部分。传感器接收外界物理量并转换成电信号输出,数据处理部分则通过各种手段将其
在地面数字接收系统中,高频信号经调谐芯片变为中频信号,再通过ADC模块将模拟中频信号转化为数字信号。本文所研究的初始解调电路的功能是把ADC输出的数字信号转化为基带数字信