论文部分内容阅读
随着科学技术的发展,工业和生活的用水增加,排放的污水量增加,为了让人们能喝到干净的水,污水处理技术在人类生存的迫切需求之下快速的发展;污水处理过程不是一种简单的污水过滤,其工艺过程极其复杂,目前污水处理的数据处理、控制过程、故障诊断等都与数据挖掘技术息息相关;数据挖掘是从大量的数据集中提取出隐含的、未知的、潜在的有用知识的过程。污水处理过程工艺的复杂性导致污水处理数据的大量、多样、高维等特点,使得监控污水处理信息的采集属性很多;工艺设备处理过程的故障通常反应在监控采集的数据上面,因此可以通过对监控设备采集来的污水处理数据信息进行异常数据挖掘,来发现工艺设备异常行为和模式。现在传统的异常挖掘算法对采集的信息数据的单个或几个属性进行数据挖掘,表现出较好的效果,但对于数据的高维属性集之间存在较高的耦合性、关联性等导致传统的基于距离和密度的聚类算法效率降低,达不到预期效果。 针对传统聚类算法的初始聚类中心很难确定的问题,本文利用遗传算法确定初始聚类中心;遗传算法具有很好的全局搜索能力,可以搜索到最优或较优的聚类中心点,利用搜索到的初始聚类中心来确定初始聚类中心距离,利用初始聚类中心距离来划分数据集,在局部数据集上采用DBSCAN聚类算法进行聚类操作,采用遗传聚类算法对UCI污水数据进行处理,分析实验结果: 针对污水处理数据的高耦合性与高维性,本文引入信息熵的概念,定义了属性熵、异常属性、异常属性子集与异常属性子空间的概念,提出了基于信息熵的子空间聚类算法来解决污水数据的高维问题,利用改进的子空间聚类算法对UCI污水数据进行处理,分析实验结果。 本文利用遗传思想来改进的DBSCAN算法,通过实验分析在聚类效率、时间复杂度上较DBSCAN算法要好;采用基于信息熵的子空间聚类算法,通过实验分析在聚类效率、时间复杂度上较传统子空间聚类算法要好。