论文部分内容阅读
本文结合国家863计划项目“空间数据挖掘的神经网络技术研究”(No.2007AA12Z228)展开研究。
目前,数据预处理已经成为实现对大规模高维空间数据集的数据挖掘的必经阶段。数据预处理的核心目标是把数据组织成一种标准形式,使其可由数据挖掘工具处理,同时能够有效保证所得到的输入数据集在数据挖掘过程中获得最佳的数据挖掘效果。为此,本文对高维空间数据挖掘的数据预处理技术进行了相关的研究。
首先,本文总结了现有的数据预处理方法,并针对原始高维空间数据所存在的问题以及空间数据挖掘模型对输入数据集的要求和期望,提出了一个面向空间数据挖掘的数据预处理工作流程,该工作流程包括数据集成、数据清理、数据转换和数据约简或分区四个阶段。
然后,论文对工作流程中的关键技术进行了深入研究。针对数据清理阶段的异常点检测,本文采用基于移动曲面拟合的方法实现对空间数据的异常点检测;采用基于移动窗口和标准差理论的方法实现对时序数据的异常点检测;采用聚类分析的方法实现对多维数据的异常点检测。以上检测方法均编程实现,通过工程实例验证了其有效性。针对高维空间数据集具有海量、高维度特点而难于处理的问题,本文提出采用主成分分析法对数据集进行维度约简,从而实现了数据降维。另一方面,本文创新地提出了一种改进的快速傅立叶变换约简方法,实现了对时序数据的有效约简。经验证,在原始信息损失小于5%的情况下,约简后数据量可以小于等于原始数据的10%。此外,本文还提出了一种数据分区方法。该方法仅以时间信息、空间信息为参考轴,不仅实现了对大规模高维空间数据集的分区,避免了空数据区的产生,还能根据数据挖掘模型对输入数据集的要求,提取出目标数据集。结合具体工程实例发现,该方法具有一定的推广价值。
最后,本文用软件实现了包含上述方法的面向空间数据挖掘的数据预处理。同时,该软件还提供了数据可视化工具,为人机交互的数据预处理提供了接口。该软件能有效实现对高维空间数据的预处理,具有一定的通用性,有较好的应用前景。