多数据库聚类技术

来源 :广西师范大学 | 被引量 : 2次 | 上传用户:hnjyli
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着数据库和互联网技术的飞速发展,大型机构,尤其跨国公司积累了大量的事务数据库,即多数据库。如何高效地从多数据库中获取有用知识是数据挖掘技术所面临的新的挑战,因此多数据库挖掘成为数据挖掘领域中新的重要研究课题。针对多数据库中存在的大数据问题,多数据库挖掘技术的有效方法是首先对其进行分类处理,然后挖掘。类似于传统的分类技术,多数据库分类处理主要从分类和聚类两方面进行,本文基于聚类分析技术对多数据库分类问题展开研究。聚类分析是机器学习中的一种经典技术,已经成功应用在文本分类、Web页面分类等领域中。该技术可以在没有先验知识的指导下,完成数据对象的自动分类,从而方便有针对性的数据挖掘工作。但是多数据库中的事务数据与文本数据、Web页面数据在结构上存在本质的差别,传统的聚类分析技术不能直接移植到多数据库分类处理中。因此,如何利用聚类分析技术有效地对多数据库进行分类吸引了国内外学者研究兴趣,并且已取得了一定成果。然而,随着应用的深入,现有多数据库聚类技术的局限性日渐显现。多数据库聚类的关键在于数据库间相似性度量和聚类算法设计,数据库间相似性度量标准直接影响聚类结果,而聚类算法则关系到聚类方法的性能。目前,多数据库聚类分析中,数据库间相似性度量一般采用基于事务频繁项集的相似度系数方法,聚类方法则采用基于划分和基于层次的方法。基于划分的聚类方法可以得到较理想的聚类结果,可是算法时间复杂度较高;基于层次的方法往往可以在短时间内得到聚类结果,但是可能遗漏更好分类。本文基于多数据库数据特点,利用聚类分析技术理论,针对当前多数据库聚类技术局限性,展开深入研究,对相似性度量标准和聚类算法两个方面进行了详细的讨论,并通过实验证明了所提出方法的有效性。文章主要工作如下:(1)深入讨论了数据库间相似性度量和聚类结果评价标准目前,数据库间相似性的度量方法主要是基于事务频繁项集的相似度系数方法,该方法主要考虑数据库中元素间的相似程度。本文设计新的相似性度量方法,侧重考虑了数据库中元素间的差异程度。聚类结果的评价标准是聚类方法实用价值的依据,本文在现有研究的基础上,综合考虑了聚类结果的类内、外平均距离和类别数量,提出了新的聚类效果评价标准。(2)提出了基于链接的多数据库层次聚类方法数据对象之间的关系分为邻接、链接和无关。一般聚类分析方法通过比较数据对象间的相似度来进行类别分配,可能会受到异常数据对象的干扰,为了避免这种干扰,ROCK算法利用对象链接进行分类。本文则基于该理念定义了多数据库间链接的概念,并提出了基于链接的层次聚类方法。该方法可以有效排除异常数据库对聚类效果的影响,可以在较短时间内得到相对满意的聚类结果。(3)设计了多数据库的均值聚类方法本文在K-Means和FCM算法的基础上,设计了针对多数据库的K均值聚类方法和概率均值聚类方法。在基于K-Means的多数据库聚类方法中,采用数据库与类别的平均距离作为均值距离,通过迭代分配数据库得到最终聚类结果;在概率均值聚类方法中,则通过梯度调整隶属矩阵的值,进而优化数据库类别分配并得到最终聚类结果。实验证明我们提出的方法是有效的。多数据库聚类是多数据库挖掘中的一种重要技术,它可以有效地对大量事务数据库进行分类,从而方便深一步的数据挖掘工作。本文针对多数据库聚类问题展开讨论,并提出了有效的聚类方法。理论分析和实验结果表明,我们的研究具有一定的应用价值。
其他文献
最初星巴克对传统的广告模式并不感兴趣,与之相反,它极其重视消费者的反馈。口碑营销是其推行的主要广告策略。2007年之前,星巴克依靠质量上乘的咖啡质量、卓越的服务品质、“第
目的:探讨Ki67、PCNA在乳腺分叶状肿瘤(PT)中的表达和意义。方法:采用免疫组织化学SP法检测66例乳腺分叶状肿瘤进行检测,比较良性、交界性和44PT中Ki67和PCNA表达的差异。结果:P
介入导管是血流动力学监测、安全输液、静脉营养支持及血液透析等医疗方法的主要依赖途径,已成为临床医疗过程中不可或缺的医用器材。介入导管材料的物理机械性能、生物相容
陈垣不仅是一名史学研究大家,而且是一位著名的教育家,他一生的主要活动总是与教育事业密切联系在一起。本研究对陈垣的创新教育思想及其实践进行了系统的研究和概括,在综合
建筑是历史文化的载体,是时代的空间符号,它承载的不仅是建筑艺术和技术的成就,更记录着时代的背景,孕育并较全面地积淀了整个华夏民族在一定时期内的文化意识、道德观念和审
<正>近年来,各地的小学语文教学中都开展了对语文教材进行单元整合的实践探索。下面我就以苏教版第九册第五单元为例,谈谈我对写景类课文单元整体教学导读课的初探。一、单元
《小学语文新课程标准》指出:“语文教学要全面培养学生的语文素养。”如何实现全面培养学生的语文素养呢?小学语文教学,阅读教学既是基础,也是重中之重。然而小学生进入高年
上呼吸道咳嗽综合征(UACS)是引起慢性咳嗽常见的三大病因之一。通过辅助检查有助于明确诊断和鉴别诊断,并可针对病因治疗。中医在明确病因的基础上,从"治病求本"出发,辨别所
市场创新、技术创新、管理创新是创新方法链的重要组成部分,三者之间的协同效应为创新方法链提供源源不断的动力支持。主要从制造创新方法链的协同性、三维创新协同原理、三
<正>在整个语文教学中,阅读教学占有举足轻重的地位。因此,在语文教学中只要抓住这个主要矛盾,其他矛盾就有可能迎刃而解。鉴于此,在问卷调查、访谈以及课堂观察等实证研究的