基于粒度层次的数据挖掘分类算法研究

来源 :太原理工大学 | 被引量 : 1次 | 上传用户:gamebugs2009
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
粒度计算作为近年研究领域的热点,为数据挖掘研究的许多方面提供了概念上的框架。许多学者从不同的视角,不同的概念和模式对粒度计算进行了研究。近年来,粗糙集理论已经变成了粒度计算研究的主要数学模式。分类是数据挖掘和模式识别的主要任务之一。分类有许多不同的表达方式,如分类规则、判别式、决策树和决策表等。本文在粗糙集理论和粒度计算理论的基础上,对数据挖掘的分类算法中进行了研究。本文的主要工作如下:首先,介绍了数据挖掘的基本概念,数据挖掘的基本过程。数据挖掘的模式分为以下几种:分类模式、预测模式、关联规则模式、回归模式、聚类模式、时间序列模式等。不论是哪一种模式,算法都起着非常重要的作用。分类模式算法包括以下几种:决策树分类、贝叶斯分类、支持向量机、神经网络、遗传算法、粗糙集方法。第二章介绍了粗糙集理论和粒度计算理论的相关背景和一些基本概念。并引入了多粒度层次概念。在第三章中,首先介绍了属性约简的基本概念,属性约简中的粒度计算。对粒度计算理论用于分层属性约简进行了研究,并给出粒度计算的属性约简算法。在接下来的两章中,本文提出一种基于粒度层次的决策树分类算法。该算法改进了决策树C4.5算法并引入了粒度概念层次。每个粒度用(属性,值)去定义。基于粒度层次树模型,我们用搜索粒度策略来提取分类规则。在一个粒度层次中,每个结点都是数据对象的子集,连接大粒度到小粒度的弧用一个原子公式(属性,值)定义。最终,树模型中所有最小粒度定义的对象是论域的一个覆盖。在每个粒度层次上的规则都可以从数据集合中导出,从顶层到底层将推导出一个规则。我们用UCI数据集验证上述方法,实验结果表明该算法是非常有效的。
其他文献
本文主要研究基于小波变换的图像逆半调方法。因为小波具有多分辨率分析的特性,能够区分图像的高频与低频部分,所以适用于逆半调处理。小波变换通过去除高频半调噪声,同时最大程
自动并行化技术的研究是随着并行计算机的出现而开始的,如何用好并行处理系统以解决大规模科学计算问题是当前计算机科学面临的一个重要课题,开发高效的并行软件是解决问题的
跨越语言障碍,实现人们不同语言之间的自由交流,是人类自古以来的一个梦想。早在50年代和60年代机器翻译就吸引了相当可观的资金,尤其是军备竞赛在1957年苏联第一颗人造地球卫星
现如今,以CPU+GPU为主的异构模式被广泛的使用,06年CUDA编程架构的推出大大提高了GPU的可编程性,各领域内使用CUDA进行加速的应用程序大量出现。CUDA的架构中引入了STMD的概
无线自组网中各个节点可以任意的移动,导致节点间传输路径的频繁中断,大量的重路由操作消耗了有限的网络资源,降低了路由协议的性能。如何在这样的网络中选择一条稳定的路径,最大
近几年来,云计算技术得到飞速发展,互联网在线业务的用户也不断增多,导致大型企业的数据中心内部流量大幅增长、网络带宽资源竞争激烈。数据中心现有的转发机制是通过静态哈
随着全球信息化进程的不断深入,研究和实现基于网络的电子商务己成为目前学术界和商业界的热点问题之一。其中,安全问题日益成为电子商务发展道路上的一大障碍,为了保证电子商务
在现代MPI并行应用中,聚合通信操作被广泛使用。聚合通信操作不仅在科学计算上占据大部分时间消耗(有时可高达70%),同时也为程序员提供更便捷编程接口。然而软件实现的聚合通
随着信息社会的不断发展,计算机网络应用的不断深入,互联网已经成为人类获取信息的最重要途径之一。在信息爆炸时代,人们面对的烦恼不再是信息资源的贫乏而是资源过剩甚至于泛滥
大数据时代,全球数据量高速增长,给个人、企业和数据中心数据的管理和保护带来重大挑战。重复数据删除技术作为一种高效的数据缩减技术被广泛应用于数据备份领域,随着系统规