论文部分内容阅读
传统的数据挖掘解决了海量数据贫乏知识的情况,但是传统的数据挖掘只适合于准确的数据,它没有考虑到数据的不确定性,然而不确定性是客观事物本身所固有的一种特性,数据挖掘如果没有考虑到数据的不确定性,那么最后的挖掘结果可能是错误的。随着不确定性数据的增多,迫切需要针对于不确定性数据的数据挖掘。在不确定性数据上进行挖掘的技术就是不确定性数据挖掘。在不确定性数据挖掘中,模糊不确定性数据的聚类分析研究和应用最广泛,模糊不确定性是指事物没有明确的外延。本文研究模糊聚类的FCM算法并将其作用在图像分割领域中进行实验和分析。图像分割本质是把图像中相似的像素聚为一类,不相似的像素分离,由于成像的误差和人类视觉的特性造成图像的模糊性,而且图像分割需要一种自动化的算法,聚类算法作为一种无监督的算法可以很好地满足这个需求,所以模糊聚类可以很好地作用于图像分割领域中。FCM算法在图像分割中的应用很广泛,但是它本身存在许多不足之处,比如计算量太大,速度慢,对初始值敏感,容易陷入局部极值,收敛性差,迭代次数多,而且对于任何的数据和初始值,FCM算法总会给出一个结果,但是它却无法判断聚类结果的好坏。针对FCM的这些缺点,本文提出了一种改进的FCM对图像进行分割:为了解决速度问题,本文对图像数据进行量化,灰度图像采用特征向量的方法,用灰度级统计值作为权值,彩色图像采用颜色集量化的方法,用量化后的颜色集的统计值作为权值,把计算量进行压缩,对压缩后的数据采用加权计算的方法,即能保证分割结果的准确度,也能提高速度;用加权的减法聚类对量化后的数据进行近似聚类,不仅可以自动确定聚类的最大聚类数目,还可以得到每个聚类数所对应的聚类的初始中心,这些初始中心都是密度指标最大的数据点,比较接近于真正的聚类中心,因此可以避免了初始值不当,迭代次数大,陷入局部极值的情况;用基于可能分布的聚类有效性函数判断聚类结果,得到有效性最好的聚类数目。本文通过实验证明,本文所提出的算法不仅保证了准确度和有效性,而且比FCM算法速度提高了几百倍,迭代次数也大大减少了。