论文部分内容阅读
随着空间数据库的快速增长和广泛使用,如何从空间数据中自动地发现空间知识变得越来越重要。空间co-location模式挖掘寻找给定空间属性之间的关联关系,是数据挖掘的主要研究方面。传统的co-location模式挖掘算法仅能挖掘正co-location模式,也就是空间属性的实例在地理空间频繁关联。事实上,负co-location模式,那些挖掘co-location模式时达不到给定阈值而它们之间又有很强负相关性的模式,有时也可能包含了非常有价值的信息,对于决策的作用是不容忽视的。例如在三江并流地区,沧江新樟和长苞冷杉常一起出现,长苞冷杉和虫草常一起出现,而当长苞冷杉和虫草同时出现时,基本上不会出现沧江新樟,这一模式表明长苞冷杉、虫草与沧江新樟之间存在负相关,有利于我们寻找这一地区的植物生长位置。现在还没有发现负co-location模式方面的研究工作,结合我们三年来对co-location模式在植物数据挖掘方面的应用研究,负co-location模式的提出和研究是非常有意义的。
本文首先介绍了空间数据挖掘的基本概念及其研究现状。
其次,介绍了co-location模式的相关概念,分析了co-location模式挖掘的实质和近年来提出的三类co-location模式挖掘算法,并对负关联规则的概念和挖掘方法进行阐述。
接着,给出了负co-location模式的定义及其相关定理的证明,指出了负co-loc~Ltion模式挖掘的难点,候选的非频繁模式数量的急剧增长。针对这一点,提出了减少候选非频繁模式的负co-location模式挖掘算法,即正负co-location模式挖掘算法,并对算法正确性和复杂性进行了分析。
最后,在植物数据上进行多次实验,实验结果表明本文所提出的算法是正确和有效的。