论文部分内容阅读
近年来,数据仓库、联机分析处理(OLAP)和数据挖掘技术得到了长足的发展,但也还存在一些问题。在目前的OLAP工具中,整个数据分析的过程是完全靠用户手工驱动的。在多维、多层次时,用户容易迷失在分析空间中,同时也容易忽略一些重要的信息。对于数据挖掘来说,目前的大部分研究并非基于多维多层次的模型来做的,直接把这些技术应用于多维数据还不够理想,能发现的知识比较有限,且未能与OLAP技术有机的结合在一起。国内外的不少研究者都已注意到了这些问题,并且开始研究有效的自动导航和知识发现机制,希望能够帮助用户方便、快捷地定位到有意义的数据,并且帮助他们发现数据内部蕴含的更多知识。为此,我们展开了国家自然科学基金项目“面向多维数据的自动导航和知识发现的理论和方法”的研究,PKU-OLAM是它的原型系统。
本文从相关性分析(CorrelationAnalysis)入手,设计并实现了PKU-OLAM中的相关性导航和知识发现子系统,该子系统包括四个核心的功能模块:相关异常点发现模块、相关切片聚类模块、相关上卷模块和相关下钻模块。本文的主要贡献如下:
设计并实现了相关异常点发现模块:
相关异常点发现模块用来发现多维数据集中的相关异常点。相关异常点是一种特殊的数据点,它能导致多维数据集中切片间的相关性发生较大的变化。本文中,我们给出了相关异常点的定义,并设计了有效的算法来查找相关异常点。
设计并实现了相关切片聚类模块:
相关切片聚类模块实现了相关切片聚类操作。相关切片聚类操作用于对切片按相关性进行聚类。相关切片聚类问题最早由姜力争等在[JYTMZ06]中提出。在应用中,我们发现它的一些问题。因此本文中,在实现相关切片聚类的基础上,我们对其进行了进一步的改进,使得该操作更为实用。
设计并实现了相关上卷和相关下钻模块:
相关上卷和相关下钻模块分别提供了相关上卷和相关下钻操作。这两个操作可以帮助用户自动分析在数据粒度发生变化时,切片间相关性的变化情况。与传统OALP相比,相关上卷和相关下钻操作的引入,大大提高了分析效率。