论文部分内容阅读
随着数据库和互联网技术的飞速发展,大型机构,尤其跨国公司积累了大量的事务数据库,即多数据库。如何高效地从多数据库中获取有用知识是数据挖掘技术所面临的新的挑战,因此多数据库挖掘成为数据挖掘领域中新的重要研究课题。针对多数据库中存在的大数据问题,多数据库挖掘技术的有效方法是首先对其进行分类处理,然后挖掘。类似于传统的分类技术,多数据库分类处理主要从分类和聚类两方面进行,本文基于聚类分析技术对多数据库分类问题展开研究。聚类分析是机器学习中的一种经典技术,已经成功应用在文本分类、Web页面分类等领域中。该技术可以在没有先验知识的指导下,完成数据对象的自动分类,从而方便有针对性的数据挖掘工作。但是多数据库中的事务数据与文本数据、Web页面数据在结构上存在本质的差别,传统的聚类分析技术不能直接移植到多数据库分类处理中。因此,如何利用聚类分析技术有效地对多数据库进行分类吸引了国内外学者研究兴趣,并且已取得了一定成果。然而,随着应用的深入,现有多数据库聚类技术的局限性日渐显现。多数据库聚类的关键在于数据库间相似性度量和聚类算法设计,数据库间相似性度量标准直接影响聚类结果,而聚类算法则关系到聚类方法的性能。目前,多数据库聚类分析中,数据库间相似性度量一般采用基于事务频繁项集的相似度系数方法,聚类方法则采用基于划分和基于层次的方法。基于划分的聚类方法可以得到较理想的聚类结果,可是算法时间复杂度较高;基于层次的方法往往可以在短时间内得到聚类结果,但是可能遗漏更好分类。本文基于多数据库数据特点,利用聚类分析技术理论,针对当前多数据库聚类技术局限性,展开深入研究,对相似性度量标准和聚类算法两个方面进行了详细的讨论,并通过实验证明了所提出方法的有效性。文章主要工作如下:(1)深入讨论了数据库间相似性度量和聚类结果评价标准目前,数据库间相似性的度量方法主要是基于事务频繁项集的相似度系数方法,该方法主要考虑数据库中元素间的相似程度。本文设计新的相似性度量方法,侧重考虑了数据库中元素间的差异程度。聚类结果的评价标准是聚类方法实用价值的依据,本文在现有研究的基础上,综合考虑了聚类结果的类内、外平均距离和类别数量,提出了新的聚类效果评价标准。(2)提出了基于链接的多数据库层次聚类方法数据对象之间的关系分为邻接、链接和无关。一般聚类分析方法通过比较数据对象间的相似度来进行类别分配,可能会受到异常数据对象的干扰,为了避免这种干扰,ROCK算法利用对象链接进行分类。本文则基于该理念定义了多数据库间链接的概念,并提出了基于链接的层次聚类方法。该方法可以有效排除异常数据库对聚类效果的影响,可以在较短时间内得到相对满意的聚类结果。(3)设计了多数据库的均值聚类方法本文在K-Means和FCM算法的基础上,设计了针对多数据库的K均值聚类方法和概率均值聚类方法。在基于K-Means的多数据库聚类方法中,采用数据库与类别的平均距离作为均值距离,通过迭代分配数据库得到最终聚类结果;在概率均值聚类方法中,则通过梯度调整隶属矩阵的值,进而优化数据库类别分配并得到最终聚类结果。实验证明我们提出的方法是有效的。多数据库聚类是多数据库挖掘中的一种重要技术,它可以有效地对大量事务数据库进行分类,从而方便深一步的数据挖掘工作。本文针对多数据库聚类问题展开讨论,并提出了有效的聚类方法。理论分析和实验结果表明,我们的研究具有一定的应用价值。