基于Rough集理论的数据预处理研究

来源 :中国地质大学(武汉) | 被引量 : 0次 | 上传用户:lijingmeng
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着计算机网络和通信技术的高速发展,数据应用的普及,人类积累的数据量正在以指数级速度迅速增长。如何从大量数据中提取有价值的规则或“挖掘”潜在的知识?传统的数据分析和查询方法已不能满足人们对隐藏在数据背后的知识的迫切需要,在这种社会需求的强劲推动下,知识发现和数据挖掘应运而生,而粗糙集理论作为一门新的数学工具,凭借它不需要附加任何外界信息或先验知识这一特点,突破了其它数据分析工具的局限,避免了人的主观因素对数据挖掘结果的影响,逐渐成为了研究知识发现的重要的数学工具之一。 由于数据预处理是KDD处理步骤中非常重要的一环,其结果将直接影响到KDD的效率、准确度以及最终模式的有效性。而经典的粗集理论不能处理原始数据资料中的遗漏信息以及值域为实数的数据,需要经过数据预处理,包括数据补齐和离散化处理后才能进行知识获取,因此如何有效地进行数据预处理具有非常重要的现实意义。 本文围绕数据预处理的一般方法和基于粗糙集的数据预处理中数据补齐与连续属性离散化展开讨论。 针对现实中大量数据中存在的缺损数据、不确定数据、不一致数据和冗余数据等情况,论文首先阐述了数据预处理要到达的目标和任务,分析了数据清理、数据集成和变换、数据离散和数据规约的主要方法。 对于不完备系统下数据的补齐,论文首先分析了数据缺损的原因,然后分析了当前主要的数据补齐算法的特点和不足,指出了数据补齐的原则和目标,并针对已有的基于粗糙集理论不完备信息系统补齐算法ROUSTIDA的缺陷,提出了基于量化相似关系的数据补齐算法,以使更多的缺损数据得到科学的填补,尽量避免因采用其它方法可能导致的决策规则冲突的问题。 对于连续属性的离散化问题,论文提出了数据离散化技术的分类和数据离散化结果评价问题,然后,对目前流行的非粗糙集方法的离散化算法进行了详细的分析和评价,指出了离散化的方向和目标,并提出了基于粗糙集理论的改进的离散化算法,以便在保证划分后决策表相容性的前提下,获得比较合理的划分点。 最后,总结了论文所做的工作及存在的问题和不足,并对今后的工作进行了展望。
其他文献
随着国土资源信息化工作的深入,国土部门电子政务建设进入了一个新的阶段,从上至下各级国土部门基本上都已建成了自己的电子政务系统。行政审批是国土资源电子政务系统的主要功
基因表达连续分析是一种相对较新的获得基因表达水平的方法。它因能使癌症自动、准确和早期诊断而被认为能对癌症的治疗有重要贡献。一种有希望的SAGE基因表达数据的应用是癌
UML是由世界著名的面向对象技术专家Grady Booch,Jim Rumbaugh和Ivar Jacobson发起,在著名的OMT方法,BOOCH方法和OOSE方法的基础上,广泛征求意见,集众家之长,几经修改而完成的统一
随着计算机通信技术的飞速发展和数据的爆炸性增长,我们步入了大数据时代。访问控制,作为一种重要的安全手段,对其判定评估引擎提出了越来越高要求,其中,判定评估的高效性是重要性
在证券市场中,期权作为一种金融衍生工具,是投资者控制投资风险的重要手段。确定期权的理论合理价格,即期权定价,被认为是金融研究领域中的重要问题,由此也产生了一些经典的期权定
随着越来越多的成功软件系统成为了遗产系统(1egacy system),软件演化的重要性和普及性越来越强。软件演化已成为软件生存周期中最重要的形态之一,进入了软件的各个领域,成为了
随着Internet的迅速发展,企业员工培训逐步走上了网络化的时代,现代远程教育就是随着现代信息技术的发展而产生的一种新型教育形式,是构筑知识经济时代人们终身学习体系的主要手
色彩在人类视觉系统中扮演着一个非常重要的角色,同时它对于人类感知也是必不可少的。色彩传递是非真实感绘制(NPR)领域的关键技术,也是研究热点。该技术是指参考某幅图像的色
Linux传统安全机制是限制普通用户仅持有最基本的权限而赋予一个超级用户root用户所有的权限,该超级用户的存在违背了安全系统设计中的最小特权原则。为克服该项弱点以满足更
本文介绍了关于项重写系统研究的最新课题和动态项重写计算的基本理论。以C语言的一个核心子集为代表,初步探讨了从过程型语言到D,TRC的转换方法,提出了从C语言核心子集到DTRC的