论文部分内容阅读
学习是人类智能的主要标志和获得智慧的基本手段,是人类具有的一种重要智能行为。在机器学习中,学习性能的好坏是衡量一个学习系统优劣最重要的指标。作为非监督学习方法的模糊聚类分析已成为机器学习研究的热点,为提高和改善机器学习性能提供了良好的理念支持与技术手段。研究模糊聚类算法对于提高和改善机器的学习性能具有重大的理论和现实意义。在模糊聚类算法中,由于模糊C-均值聚类算法(Fuzzy C-mean Clustering Algorithm,FCM)计算简单,具有比较直观的几何意义,在许多领域获得了非常成功的应用。然而基于传统目标函数的FCM,采用迭代的爬山技术来寻找最优解,本质上是一种局部搜索算法。因而其存在着两大致命的问题:一是处理大数据量费时,二是对数据初始化敏感,容易陷入局部极小值。对此,本论文运用实验和比较方法,着重从以下几个方面对FCM加以改进:1、在提高FCM算法对大数据量的聚类速度方面,通过多次随机取样聚类与数据约减相结合,以减少FCM算法收敛所需的迭代次数与运算时间;为了提高FCM算法的聚类正确率,对模式分类作出不同贡献的各维特征进行加权选择,使得聚类结果更好。2、由于FCM会陷入局部最优化,论文采用遗传算法加以解决。将遗传算法与FCM结合产生基于遗传算法的模糊C-均值聚类算法GFCM,充分发挥FCM的局部搜索和遗传算法的全局搜索能力,提高算法聚类正确率。3、针对FCM对大数据量处理速度慢的缺点,运用神经网络技术改进模糊聚类算法。将自组织映射神经网络(Self-Organizing feature Map,SOM)与FCM结合,产生基于SOM的模糊C-均值聚类算法FKCN,利用SOM的并行计算,以提高聚类算法的速度和效果,实验结果表明算法有效。通过对FCM算法的上述改进,以弥补其局限性,使得算法更具合理,从而减少聚类时间,提高聚类效果,以此提升非监督学习能力、效率与稳定性,优化机器学习性能。