论文部分内容阅读
联机分析处理技术和数据挖掘技术都是决策支持的重要技术,两者在决策分析过程中可以分工合作、功能互补。但是两者的产生背景、发展历程、数据基础、分析层次、用户群等方面存在着较大的差别,这妨碍了两者在决策支持应用中的有机、高效的结合。为了减少或消除这种差别,实现联机分析处理和数据挖掘的紧密结合,我们提出在多维数据模式的基础上同时支持OLAP应用和数据挖掘应用的思路。
关联规则是数据挖掘研究的一项重要任务。随着数据仓库及OLAP分析技术的快速发展,越来越多的商业统计及财务统计都通过多维数据来展现,这对关联规则的挖掘方法提出了新的要求,原有的挖掘方案及挖掘效率在一定程度上受到了限制和制约。那么如何针对多维数据进行有效的数据挖掘便成为信息科学研究领域的一个重要的课题。因此本文主要针对多维数据关联规则挖掘的理论和方法进行深入细致的研究,并提出了一套行之有效的多维数据挖掘方案。
论文分析研究了多维数据立方的特征及关联规则挖掘Apriori算法,综合了数据仓库技术、联机分析处理技术和关联规则挖掘算法,给出了基于多维数据的关联规则挖掘方法,其中包括维内关联规则挖掘、维间关联关联规则挖掘和混合维关联规则挖掘。这种多维数据关联规则挖掘方法改变了传统关联规则挖掘过程中通过扫描事务数据库计算支持数的方法,而采用了扫描数据立方体来统计频繁项目集的支持数。另外针对数据立方结构以及OLAP操作,算法融入了层次的概念,给出了可选概念层次的多维数据关联规则挖掘算法,通过上钻、下钻选出更合理的概念层次,从而在选取的概念层次上进行关联规则挖掘。算法中产生关联规则时,又结合了兴趣度、约束的概念,最终挖掘出用户感兴趣的、指定约束的、概念层次合理的、多维的关联规则。研究显示这种基于OLAP的多维关联规则挖掘算法可以准确地确定要调整的维,在挖掘过程中对维层次的高低进行判断,并利用数据立方体的上钻和下钻操作对维层次进行调整,具有较高灵活性及效率。