论文部分内容阅读
信息技术的不断发展,使得传统信息系统、商务智能系统得到了越来越广泛的应用。随着数据资源不断的生成和累积,数据资源中蕴含的价值得到了越来越多的重视,数据挖掘技术也应运而生。元数据作为数据库、数据仓库构建的核心工具,在数据库的组织管理、数据仓库构建,以及在此基础上的数据挖掘中扮演着十分关键的角色。聚类作为数据挖掘的重要手段之一,元数据的聚类与集成同样为面向数据仓库的数据挖掘提供了一个更为有效的途径。然而,目前针对元数据聚类与集成的研究并不多见。大数据环境下,尤其是面向数据流环境,数据结构更为复杂、数据规模更为庞大,数据生成也更为动态化,这使得元数据的聚类与集成面临新的挑战。因此,本文针对元数据的聚类与集成问题,将具有全局寻优能力的群智能优化算法引入到元数据聚类问题的求解中,提高数据仓库构建和管理中元数据聚类的准确率和元数据集成管理的有效性。
围绕元数据的聚类与集成,本文将改进的群智能萤火虫算法引入到元数据的聚类问题求解和集成方案设计中,并从元数据记录、元数据树两个层面研究了相应的聚类方法,从同构、异构两个角度研究相应的元数据集成方法。本文的主要研究工作和创新点可以简要概括如下:
(1)基于动态索引树的思想,设计了一种面向静态元数据管理的集成方法。针对传统的静态元数据集的集成问题,着重研究了多属性异构元数据的集成策略。首先,设计了一种基于动态索引树的同构元数据集成方法,并在元数据集成的同时实现相应的清洗操作。在此基础上,通过设计多层次的元数据相似度度量方法,构建面向多属性异构元数据的集成方法。
(2)面向元数据记录,设计了基于改进萤火虫算法(Glowworm Swarm Optimization,GSO)的元数据记录聚类方法。依据对象的不同,本文将元数据的聚类问题,划分为元数据记录聚类和元数据树聚类两个层面。在元数据记录的聚类方法研究中,将佳点集理论引入GSO算法中,优化GSO算法的初始种群分布,提高GSO算法的聚类效果,将改进的GSO算法与K-means算法、K-prototypes算法相结合,设计新的元数据记录聚类算法GSOK(Optimization algorithm based on GSO and K-means),以及算法GSOKP(Optimization algorithm based on GSO and K-prototypes)。
(3)面向元数据树,设计了基于GSOKP算法的元数据树聚类方法。针对元数据树的结构化特征,通过将GSOKP算法与最大频繁路径技术相结合,采用最大频繁路径的相似度实现对元数据树相似度的度量,以提升计算效率,并对最大频繁路径的特征向量进行新的设计,以提升聚类准确率。在此基础上,设计新的元数据树聚类算法GSOKP-FP(Optimization algorithm based on GSOKP and maximum frequent path)。
(4)面向动态元数据管理的聚类与集成,基于对元数据记录、元数据树聚类方法的研究,并结合静态元数据集成中动态索引树的基本思想,面向数据流环境,研究基于增量式决策树的动态元数据聚类与集成方法。首先,设计面向元数据的增量式决策树的构建方法;其次,设计增量式元数据决策树的聚类、分枝、剪枝等操作的具体实现方法;第三,在聚类操作中引入GSOKP算法、GSOKP-FP算法用以求解元数据记录和元数据树的聚类问题,并通过信息增益以及类别标记错误率来实现分枝、剪枝操作,控制增量式元数据决策树的规模,实现对元数据更加有效的集成管理。
围绕元数据的聚类与集成,本文将改进的群智能萤火虫算法引入到元数据的聚类问题求解和集成方案设计中,并从元数据记录、元数据树两个层面研究了相应的聚类方法,从同构、异构两个角度研究相应的元数据集成方法。本文的主要研究工作和创新点可以简要概括如下:
(1)基于动态索引树的思想,设计了一种面向静态元数据管理的集成方法。针对传统的静态元数据集的集成问题,着重研究了多属性异构元数据的集成策略。首先,设计了一种基于动态索引树的同构元数据集成方法,并在元数据集成的同时实现相应的清洗操作。在此基础上,通过设计多层次的元数据相似度度量方法,构建面向多属性异构元数据的集成方法。
(2)面向元数据记录,设计了基于改进萤火虫算法(Glowworm Swarm Optimization,GSO)的元数据记录聚类方法。依据对象的不同,本文将元数据的聚类问题,划分为元数据记录聚类和元数据树聚类两个层面。在元数据记录的聚类方法研究中,将佳点集理论引入GSO算法中,优化GSO算法的初始种群分布,提高GSO算法的聚类效果,将改进的GSO算法与K-means算法、K-prototypes算法相结合,设计新的元数据记录聚类算法GSOK(Optimization algorithm based on GSO and K-means),以及算法GSOKP(Optimization algorithm based on GSO and K-prototypes)。
(3)面向元数据树,设计了基于GSOKP算法的元数据树聚类方法。针对元数据树的结构化特征,通过将GSOKP算法与最大频繁路径技术相结合,采用最大频繁路径的相似度实现对元数据树相似度的度量,以提升计算效率,并对最大频繁路径的特征向量进行新的设计,以提升聚类准确率。在此基础上,设计新的元数据树聚类算法GSOKP-FP(Optimization algorithm based on GSOKP and maximum frequent path)。
(4)面向动态元数据管理的聚类与集成,基于对元数据记录、元数据树聚类方法的研究,并结合静态元数据集成中动态索引树的基本思想,面向数据流环境,研究基于增量式决策树的动态元数据聚类与集成方法。首先,设计面向元数据的增量式决策树的构建方法;其次,设计增量式元数据决策树的聚类、分枝、剪枝等操作的具体实现方法;第三,在聚类操作中引入GSOKP算法、GSOKP-FP算法用以求解元数据记录和元数据树的聚类问题,并通过信息增益以及类别标记错误率来实现分枝、剪枝操作,控制增量式元数据决策树的规模,实现对元数据更加有效的集成管理。