论文部分内容阅读
多关系数据挖掘是近年来快速发展的重要的数据挖掘领域之一。传统的数据挖掘方法只能完成单一关系中的模式发现,多关系数据挖掘能够从复杂的结构化数据中发现涉及多个关系的复杂模式。多关系数据挖掘是一个跨学科领域,吸纳了归纳逻辑程序设计、KDD、机器学习和关系数据库的研究成果,致力于处理由多关系表组成的关系数据库知识发现问题,是研究挖掘多关系型数据的新型技术及其有效的应用实践。
高效性和可扩展性一直是数据挖掘领域的重要研究课题。考虑多关系数据挖掘,这个问题尤为重要。多关系数据挖掘任务的复杂性对算法的性能提出了更高的要求。与传统的数据挖掘算法相比,多关系数据挖掘算法的搜索空间变得更复杂,更大;对于单个假设的评价也变得复杂。对于多关系数据学习算法,提高算法效率的主要瓶颈在于搜索空间。为了提高多关系数据挖掘算法的效率和可扩展性,减少假设搜索空间是关键。对于这个问题主要有两种方法:一种方法是减少要评价的假设数;另一种方法是提高评价过程的效率。针对以上的问题,本文主要做了以下工作:
首先,在多关系数据挖掘领域,对于单个假设的评价可能涉及多个表之间的连接。本文针对多关系数据挖掘的数据结构复杂性,提出了一种新的方法—目标元组标识传播,大大减少了建树过程中需要连接表的次数,也就是提高了每个假设评价本身的效率。
其次,采用数值属性离散化方法及属性概念提升等方法对数据预处理,这种方法实际上减少了要评价的假设数。同时把数据预处理技术与目标元组标识传播技术结合起来,实验证明两者的结合显著的提高了算法效率。
最后,对于多关系数据挖掘算法应用于空间数据的分类进行了初步尝试,在模拟的数据上进行了实验,证实了算法的正确性和有效性。