论文部分内容阅读
聚类分析在数据分析和信息处理中发挥着重要的作用。然而,对于一组数据,如何确定其中的聚类个数依然是一个相当困难的问题。山峰和减法聚类方法是一种可确定聚类个数的方法。但由于它们所采用的山峰都是钟型的,对于一般数据无疑会产生错误。本文在高斯混合模型的假设下对减法聚类方法进行了改进。通过对山峰函数的期望的估计和分析得到了各个山峰的形状(即协方差矩阵)和所包含样本个数的估计,因此可使得聚类个数的确定更加有效和准确。实验表明,这种新方法可以克服原减法聚类方法对于高斯混合数据聚类时的不足,特别是对于重叠性较强的高斯混合数据也能产生很好的聚类结果。其弱点是在较高维数的数据集上聚类结果还不够稳定,有时会出现一定的偏差。