PKU-OLAM中相关性导航和知识发现子系统的设计与实现

来源 :北京大学 | 被引量 : 0次 | 上传用户:mena
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,数据仓库、联机分析处理(OLAP)和数据挖掘技术得到了长足的发展,但也还存在一些问题。在目前的OLAP工具中,整个数据分析的过程是完全靠用户手工驱动的。在多维、多层次时,用户容易迷失在分析空间中,同时也容易忽略一些重要的信息。对于数据挖掘来说,目前的大部分研究并非基于多维多层次的模型来做的,直接把这些技术应用于多维数据还不够理想,能发现的知识比较有限,且未能与OLAP技术有机的结合在一起。国内外的不少研究者都已注意到了这些问题,并且开始研究有效的自动导航和知识发现机制,希望能够帮助用户方便、快捷地定位到有意义的数据,并且帮助他们发现数据内部蕴含的更多知识。为此,我们展开了国家自然科学基金项目“面向多维数据的自动导航和知识发现的理论和方法”的研究,PKU-OLAM是它的原型系统。 本文从相关性分析(CorrelationAnalysis)入手,设计并实现了PKU-OLAM中的相关性导航和知识发现子系统,该子系统包括四个核心的功能模块:相关异常点发现模块、相关切片聚类模块、相关上卷模块和相关下钻模块。本文的主要贡献如下: 设计并实现了相关异常点发现模块: 相关异常点发现模块用来发现多维数据集中的相关异常点。相关异常点是一种特殊的数据点,它能导致多维数据集中切片间的相关性发生较大的变化。本文中,我们给出了相关异常点的定义,并设计了有效的算法来查找相关异常点。 设计并实现了相关切片聚类模块: 相关切片聚类模块实现了相关切片聚类操作。相关切片聚类操作用于对切片按相关性进行聚类。相关切片聚类问题最早由姜力争等在[JYTMZ06]中提出。在应用中,我们发现它的一些问题。因此本文中,在实现相关切片聚类的基础上,我们对其进行了进一步的改进,使得该操作更为实用。 设计并实现了相关上卷和相关下钻模块: 相关上卷和相关下钻模块分别提供了相关上卷和相关下钻操作。这两个操作可以帮助用户自动分析在数据粒度发生变化时,切片间相关性的变化情况。与传统OALP相比,相关上卷和相关下钻操作的引入,大大提高了分析效率。
其他文献
嵌入式操作系统面向的应用领域十分复杂,这要求嵌入式操作系统具有可配置、可剪裁的能力。将基于构件的软件开发方法应用于嵌入式操作系统领域,不仅可以使嵌入式操作系统具有可
随着大规模网络存储系统的发展,基于P2P结构的存储体系由于可扩展性、健壮性以及性能的优势,越来越受到人们的重视。文件的可用性是存储系统最重要的属性之一,可用性水平的高低
垃圾邮件问题已经成为当今Internet的灾害。垃圾邮件是指那些未经收件人许可就发送到收件人邮箱的电子邮件。垃圾邮件每年都在造成大量的金钱损失、生产力浪费,并且造成Intern
随着工业控制、交通管理、环境监测、网络监测等各个领域中数据流应用的大量出现,数据流上的查询处理成为近年来研究的热点问题。这些应用中的数据通常来源于多个计算设备,形成
随着科学技术的不断进步,现在照相机的像素已经越来越高,普通的手机像素也已经高达千万级别,传统的对图像的处理已经无法满足用户的需求,特别是在颜色编辑方面,现有的方法对图像的
本文从电子设计自动化技术对研发流程的工程化、标准化要求入手研究电子设计自动化元件符号库的建库技术,总结了北京大学微处理器研究开发中心为建立规范、统一、标准化的元件
近年来集群系统已成为分布式计算领域研究的热点。随着集群规模的不断扩大和集群的共享化,作业管理在集群高性能计算中发挥着越来越重要的作用。针对大规模集群中的单节点瓶颈
目前,随着语义网的发展,本体越来越多地在各个领域被应用,使得本体演化开始受到越来越多的研究者重视。为本体提供一种有效的演化方法,使它能够及时地得到更新以适应各种变化成为
目前互联网搜索引擎的主要功能,本质上说在文档级别计算文档和查询的相关度,并按相关度排序。然而,有大量关于真实世界对象的结构化信息包含在网页和网络数据库当中,如果用文档级
PKI技术是信息安全领域的重要技术,在现实中的应用也越来越广泛。而CA系统是PKI系统的关键设施,掌管着PKI系统的核心机密——CA私钥。为了提高PKI系统的安全,同时也为各方面衡量