论文部分内容阅读
随着大数据时代的到来,数据的复杂性,规模不断增加,对聚类算法的要求也越来越高。本文针对复杂数据信息的聚类算法做了相关的研究,一种复杂数据是高维数据,由于“维度灾难”的影响,传统算法不能对它做有效处理,另一种复杂数据为障碍空间下的数据,因为障碍物的存在会导致传统聚类算法的失效,所以对它的处理也很重要。首先为了解决高维数据的聚类问题,本文在主成分分析算法(principal component analysis,PCA)的基础上,对其降维后会使后续聚类算法精确度下降的问题,提出了一种新的特征空间概念,通过特征空间与信息熵的结合构建了新的降维标准,提出了更加适用于高维数据聚类的降维算法(entropy-PCA,EN-PCA),后针对降维后特征是原特征的线性组合而导致的可解释性变差以及输入不够灵活的问题,提出了基于岭回归的稀疏主成分算法(sparse principal component algorithm based on ridge regression,ESPCA),最后在降维数据的基础上,针对遗传算法聚类收敛速度慢等问题,对遗传算法的初始化、选择、交叉、变异等操作进行改进,提出了新的聚类算法(genetic k-means algorithm++,GKA++)。其次针对障碍空间下的数据聚类问题,本文的首要目标是解决障碍空间聚类算法的精确度不足,以及很少研究者关注的障碍物动态变化的聚类问题,对此提出了障碍静止情况下的聚类算法(cluster algorithm under the condition of static obstacles,STA_PI_OBGRID),其中包含了一系列定义和规则来增加聚类的精确性,后又提出了障碍增加情况下的聚类算法(cluster algorithm in the case of increased obstacles,DYN_OBGRID_ADD)、障碍减少情况下的聚类算法(cluster algorithm in the case of obstacle reduction,DYN_OBGRID_DE)和障碍移动情况下的聚类算法(cluster algorithm in the case of obstacle moving DYN_OBGRID_MV),静态障碍聚类算法增加了聚类结果的精确性,动态障碍算法增加了对此问题的聚类算法的全面性。针对以上算法,实验从障碍物静止和障碍物数量变化或者位置变化方面创建数据,经验证后算法无论在准确性上还是在效率上均具有良好的表现。