论文部分内容阅读
数据挖掘技术是近年来国际上在信息、决策领域最前沿和最活跃的研究方向之一。聚类就是把多个没有类别标记的样本集按某种准则划分成若干类,是数据挖掘中的一种强有力的分析工具,得到了人们的广泛关注,近几十年来得到了迅猛的发展,有许多聚类分析新算法不断被提出,并且聚类分析已广泛地应用于模式识别、计算机视觉、模糊控制、图象分割、特征提取和信号压缩等许多领域。本文主要对进化计算、人工免疫系统、混沌优化算法与模糊c-均值聚类(FCM)算法相结合的混合聚类算法进行了研究,提出了两种新算法:基于免疫进化计算的模糊c-均值聚类算法(IEFCMA)和基于混沌免疫进化计算的模糊c-均值聚类算法(CIEFCMA),以提高收敛速度并改善分类效果。第一,介绍了聚类、模糊聚类分析和模糊c-均值算法,指出模糊c-均值算法是模糊聚类分析中应用最广泛的,同时分析指出了模糊c-均值算法的致命缺点:对初始化非常敏感而易早熟陷入局部最优解。第二,本文对进化计算、人工免疫系统的基本框架、功能原理和特性进行了阐述,探讨了它们的优缺点,并介绍了免疫进化算法的研究现状。第三,本文介绍了混沌理论、Logistic混沌优化算子和Tent混沌优化算子,并指出混沌的遍历特性可作为搜索过程中避免陷入局部最优解且改善搜索效率的一种优化机制。第四,针对现有模糊c-均值算法存在的不足,本文提出了改进的新算法,新算法结合了人工免疫系统、进化计算和混沌优化算法、模糊c-均值算法各自在数据空间搜索的优势,实现了从全局到局部的两层领域搜索机制。新算法中介绍了聚类中心作为抗体的实数编码方式、克隆选择算子、免疫记忆、免疫遗忘、抗体浓度抑制、各种进化操作算子以及混沌优化算子。仿真结果表明,本文提出的改进模糊聚类分析的新思想和新方法都取得了良好的效果,新算法有效地避免了通常聚类方法易出现的未成熟收敛现象,同时也具有收敛速度快、分类准确度高、种群多样性好等特点。