论文部分内容阅读
聚类集成技术综合利用基聚类的多个版本来完成聚类任务,可大大提高聚类结果的准确性和稳定性。近年来,聚类集成技术已成为机器学习领域的一个研究热点。聚类集成一般可分为三个阶段:生成基聚类、获取集成关系和确定最终聚类。通过设置单个聚类算法的不同参数、采用数据集的不同特征或者不同子集等方法来生成基聚类成员;利用关系矩阵或簇关联矩阵等方法来处理多个基聚类结果,并生成集成关系;最后利用超图分割技术等方法来获得最终的聚类结果。本文研究并实现了三种最新的聚类集成算法,并对其进行了改进,具体工作包括以下几个方面:(1)首先,研究并实现了基于随机投影的模糊聚类集成方法,本文利用特征重采样来改进原基聚类生成方法,并采用关系矩阵增一法改进获取集成关系的方法。(2)前述方法在聚类过程中需要事先指定聚类数目,本文研究并实现的第二个算法是基于多重K的聚类集成方法,该方法不需要指定聚类数目,直接生成不同聚类数目的基聚类。针对该算法中获取集成关系方法的不足,提出利用关系矩阵增K法来突出样本之间的紧密度和分离度,并在确定最终聚类时对孤立点进行了重分配。(3)前两种集成算法在获取集成关系时,得到的都是样本之间的关系,忽略了簇与簇之间的关系。基于链接的聚类集成方法综合了前两种算法中生成基聚类的方法,并充分利用簇与簇之间的相似度来完善集成关系。在研究并实现该算法的基础上,分析其确定最终聚类方法的不足,提出基于簇关联矩阵的二次集成方法。(4)在多个真实的基因表达数据集上的实验结果表明:改进后算法的聚类效果均优于原始算法;改进的基于多重K的聚类集成方法适用于不指定聚类数目的情况;在指定分组数目的情况下,改进的基于链接的聚类集成方法性能更好。