论文部分内容阅读
当今是一个数据爆炸的时代,空间分析和空间数据挖掘方法和技术也随之迅猛发展,对于数据质量的要求越来越高,数据质量对最后挖掘出的知识有着非常重要的影响。不确定性是空间数据固有的属性。不确定性主要有三种类型:粗糙性,模糊性和随机性。此外不确定性通过数据挖掘过程会逐渐传递到最终结果当中。如果不对其进行分析和控制,那么最终结果可能和实际情况严重不符。此外不确定性本身也携带有大量的信息,如果在挖掘过程中加以考虑,可能会发现一些新颖的知识。因此,如何在空间分析或者空间数据挖掘中考虑到数据中的不确定性就显的尤为重要,目前这一方面已经有了很多研究,也逐渐发展为基于不确定性的空间数据挖掘。本文以山西省和顺县神经管畸形出生缺陷(NTD)问题以及遥感信息提取为依托,对矢量型数据和栅格型数据的挖掘进行了深入系统的研究。在对矢量数据进行空间数据挖掘方面,本文首先讨论了如何使用经典的Pawlak粗糙集理论从NTD矢量数据中进行空间规则提取,在对这一问题进行探讨的过程中发现,经典粗糙集理论空间规则提取过程中存在三个问题。第一个问题是对于实际应用中普遍存在的模糊决策问题无法进行有效处理,因此本文的第三章构建了如何使用粗糙模糊集进行空间数据挖掘的模型,解决了这一问题。第二个问题是在经典粗糙集规则提取中并没有考虑到规则的空间分布,因此本文第四章提出了使用空间聚类和经典粗糙集相结合的方法。最后一个问题是现有的文献很少对抽样和粗糙集规则提取预测精度之间的关系,本文第五章通过实验探讨了概率抽样对基于粗糙集的空间规则提取预测精度的影响。在对栅格数据的空间数据挖掘方面,主要是在遥感信息提取方面将多重网格模拟引入到基于多点模拟的遥感图像信息提取算法中来解决再现多个尺度的空间结构信息和运算速度之间的矛盾,并且使用这一方法对山东省滨州市附近的遥感图像进行了道路提取实验。论文的主要成果如下:
论文的主要成果如下:
1.探讨了如何使用Pawlak粗糙集对和顺县出生缺陷数据进行规则提取。本文第二章讨论了如何使用Pawlak粗糙集进行规则提取,以及如何将常见的各种空间数据转换为决策信息系统的形式。该章还使用这一模型对和顺县出生缺陷数据进行了规则提取和预测,结果表明该方法提取的规则对校验数据的预测精度达到95%以上。
2.探讨了如何使用粗糙模糊集从矢量型空间数据中的提取模糊决策规则。本文第三章将粗糙模糊集的离散化,约简,规则提取和匹配,预测结果精度评价整合成一个实用的模型,并且还将模糊粗糙集模型应用到了和顺县NTD数据中进行规则提取。同经典粗糙集相比较,粗糙模糊集的决策规则所含的信息量比传统的决策规则要多。这样在决策过程中,决策指定者就可以得到更为精确的信息,决策者就不仅仅是知道存在行问题,还能够知道究竟这种可能性或者风险有多大。
3.研究了如何在经典粗糙集规则提取中考虑规则的空间分布和空间相关性问题。本文使用了将空间聚类和粗糙集方法相结合的方式来解决这一问题。这一方法可以在使用粗糙集理论的同时考虑到空间相关性。比如,得到的规则是有空间分布特征的。在引入空间相关性信息后,新模型可以形成论域上更细的划分,也就是可以得到更细的知识粒度。这样可以纠正一些被错误预测的情况。这一模型也可以考虑到粗糙集约简过程中被忽略掉的重要的空间相关属性。
4.探讨了概率抽样对基于粗糙集的空间规则提取预测精度的影响,本文通过山西省和顺县NTD出生缺陷数据,用实验对比了四种概率抽样方法。结果表明,使用合适的分层抽样(充分考虑空间异质性的分层)要比使用随机抽样所需要的样本量更小,但是精度却有一定的提高。使用空间抽样,在充分考虑目标的空间相关性的条件下,虽然精度有少许下降,但是所需的样本量也减少。
5.探讨了将多重网格技术引入基于多点模拟的遥感信息提取算法。本文通过引入多重网格方法来同时考虑到多个尺度的结构信息,而且避免了使用过大模板导致的运算速度下降。通过实验和经典的MLC算法进行比较发现,各种评价指标都比MLC分类结果都有提高。