基于粗糙集的关联规则挖掘算法研究

被引量 : 0次 | 上传用户:qinslin5043
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着信息时代的飞速发展,数据库技术的广泛应用,数据会不可避免地出现“膨胀”。人们渴望从这些“膨胀”的数据中挖掘出它们之间的联系,从而获取有用的知识。这是一项非常艰巨的任务。关联规则挖掘应运而生,其目标正是找出数据之间的关系,并形成规则。Apriori算法是关联规则挖掘领域最为经典的算法,但是该算法存在着很多不足。虽然有很多对其改进的相关算法,但是这些改进算法中,有些仍旧会产生候选项集,而有些只能适用于中小规模的数据集。近年来,数据“膨胀”更为严重,人们更是无从下手。现有的关联规则挖掘技术难以有效地从海量数据中挖掘出全部有用信息,粗糙集理论应运而生,并逐渐地向关联规则挖掘领域迈进,主要体现在三个方面:一是在数据预处理阶段,它可以对决策表中的不完整数据进行填充、离散化等等;二是在数据集约简阶段,粗糙集理论可以通过属性约简算法对初始项集进行约简;三是在规则生成阶段,可以利用粗糙集理论中的属性值约简算法来实现。这三个方面充分显示出Rough集理论在关联规则挖掘领域的重要性。将Rough集理论应用于关联规则挖掘领域,一方面解决了从海量数据中挖掘有用信息这一关键问题,另一方面促进了数据挖掘领域的发展,加快了粗糙集理论的发展步伐。鉴于这些优势,本文从理论、算法、实验、模型、实例5个方面将关联规则挖掘提高到了一个新的层次,更加肯定了粗糙集理论的优势。本文重点做了以下具体工作:1、深入地研究了关联规则及关联规则挖掘等相关理论知识,重点探讨了Apriori算法的优点、存在的问题及下一步的改进方向。2、在总结和分析Apriori算法的性能和特点的基础上,针对Apriori算法及其相关改进算法存在的不足,本文引入一种新的数据结构对Apriori算法进行了改进。通过该数据结构,直接生成频繁项集,大大提高了海量数据中挖掘项集的效率。整个过程只需扫描一次数据库,不会产生候选项集。并通过实验对比了新算法与Apriori算法在时间上的运行效率,切实证明了新算法的可行性、高效性。3、在掌握好关联规则挖掘与粗糙集之间的联系的基础之上,深入研究了粗糙集理论的基本知识:知识与知识库、决策表信息系统、知识的绝对约简与相对约简、知识的依赖性表示等等;总结并分析出三种不同属性约简算法的核心思想及其它们之间的异同,并围绕其中的一种算法进行了研究,即通过赋予属性重要度新的定义对属性约简算法进行了优化;并将其应用在关联规则挖掘实例中,经验证,新算法产生了良好的效果。4、构建了一种模型,并将粗糙集理论及其以上两个改进内容加入到了该模型中。
其他文献
目的:探讨中医文化视域下养生音乐对广泛性焦虑症(GAD)的临床疗效。方法:选取门诊170例GAD患者随机分成对照组和实验组,各85例,对照组行认知心理治疗辅助益气养心中药治疗,实
近几年,市场上具有高营养医疗保健价值的山核桃频频出现质量问题。而传统的质量控制方法并不能满足山核桃“从山头到餐桌”的全程质量控制。通过比较研究发现,当前质量控制方
[目的]观察胸腔内留置带侧孔中心静脉导管治疗胸腔积液的护理效果。[方法]对58例胸腔积液病人应用中心静脉导管间断引流胸腔积液,并做好导管留置期间的护理。[结果]58例均置
随着世界经济的高速发展,石油的需求量和消耗量急剧增加,轻质原油的储量和可开采量逐渐减少,而世界稠油资源丰富,未来石油日益增长的需求主要靠开发稠油来满足。但是,由于稠
1一般资料本组25例患者均为在校学生,年龄在13~18岁之间,平均14.5岁.病史最长1年,最短20d,其中曾用西药止血、性激素无效12例;用中药补气摄血药物无效5例;直接来求诊8例.经检
从人类生存的地球上来看,自然界存在有无限的能源资源。仅就太阳能而言,太阳每秒钟通过电磁波传至地球的能量达到相当于500多吨煤燃烧放出的热量。这相当于一年中仅太阳能就有1
“兵马未动,粮草先行”,粮食在战争中所起的作用可谓极大。抗日战争时期,在晋冀鲁豫抗日根据地,由于连年的自然灾害,以及日本侵略者对生产资料、劳动力的破坏,粮食产量大幅度
金属拉链在生产过程中,由于各种原因导致拉链链齿、拉头和限位码的缺失,链带存在边缘破损、有污垢等缺陷。金属拉链外观质量判断一直是影响产品生产效率的一个难题。随着计算
AGV即自动导引小车[I],英文全称为(Automatic Guided Vehicle)。是指装备有自动导引装置,并且能够沿指定路径行驶,具有安全保护及各种移载功能的运输车。AGV系统由三个基本组
对区域坐标的基本概念、区域坐标系的选择方法以及选择步骤,作了概括性地阐述。