论文部分内容阅读
随着大量的数据保存于空间数据库中,人们希望发现一些在某些共同特征上相似的组,因而聚类分析已经成为数据挖掘的一个活跃的研究领域。
然而,大部分现有的聚类算法忽视了现实中存在的物理障碍,这些障碍的存在会实质性地影响聚类方法和聚类结果。本文在对聚类问题进行了系统研究的基础上,对COE问题进行深刻分析,然后对传统聚类算法AUTOCLUST进行改进,提出了ObstacleAUTOCLUST算法,既保留了AUTOCLUST无需用户设置参数的优点,又适用于对障碍空间上的数据进行聚类。
由于空间数据库数据量巨大,全部数据常常不能一次性贮存于内存中,从而需要反复读取外存,耗费大量的I/O时间。针对此问题,论文对ObstacleAUTOCLUST算法进行扩展,设计了COE-AUTOCLUST算法,COE-AUTOCLUST算法利用图论知识,结合障碍,把大的数据库划分成一些小的数据集,吸收BIRCH算法的优点,对每个划分后的数据集进行微聚类,用一个代表点表示每个微聚类结果,从而降低了参与聚类的数据量,使得该算法适用于处理大型空间数据库。
本文最后在模拟数据上进行了大量的具体实验,验证了所提算法的有效性。文章还对其它受限等聚类问题进行了阐述,最后在结尾部分提出了未来的研究方向。