粗糙集理论在大规模集数据集及动态环境下的应用研究

来源 :华南理工大学 | 被引量 : 0次 | 上传用户:ybingh
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
粗糙集理论作为一个处理模糊、不确定性问题的新型数学工具,自上个世纪80年代由波兰数学家Z.Pawlak提出以来,在机器学习、知识获取、模式识别、模糊控制、数据挖掘等领域得到了广泛应用。它与现有的数据分析方法如统计的方法、模糊数学、Dempster shaffer证据理论等相比,具有的最大优点在于它不需要预先知道额外的信息,如模糊数学中的隶属度函数及统计方法中的先验概率等。因此粗糙集理论自诞生以来得到了广泛关注,成为了一个新的、最重要的、并且迅速发展着的研究学科。 但是粗糙集理论应用于实际系统时仍然存在一些问题,比如粗糙集理论在大规模数据集上的应用;在实时动态环境下的规则的提取;多粗糙集规则集融合问题;多规则集决策融合等等。 针对上述问题,本文应用粗糙集理论,提出了解决方案,并将理论研究成果应用于两个实际项目中。本文中完成的主要工作包括: 1、提出了一个应用于实时动态环境下的规则提取方案。基于粗糙集理论的规则提取算法需要一次性地处理全部知识,因而不适用于实时动态环境下,而现有的增量学习算法,都存在以下两方面的问题:一是数据处理是单向的,即只能处理数据增加的情况,而不能处理数据减少或局部改变的情况。二是现有的增量学习算法大多是基于区分矩阵的,或者是基于改进的区分矩阵,具有较大的空间复杂度,不适合应用于较大数据集。本文中提出了对象的相关性及规则的依赖性的概念,并证明了一些相关性质,并据此提出了一种新的规则提取算法:RDBRST(Rule DeriVation Based on Rough set and Search Tree),即基于粗糙集和搜索树的规则提取算法,该算法是以现有规则集中的信息为启发信息,通过对解空间的广度优先启发式搜索产生新规则。该算法可以较好的解决上述两个问题。 2、粗糙集理论应用于分布式系统时常常需要将多个具有相同属性集的子系统中所得到的规则集进行融合,以形成新的适用于全局的规则集。本文提出了两个规则集的融合算法,通过对现有规则集的“筛选”去除冗余规则,并通过“扩展”形成新的规则,为了进一步减少运算复杂度,在实际应用中,本文提出了等价类矩阵及规则集矩阵的概念,将基于等价类及规则集的运算转换为布尔向量之间的运算,从而减少了数据集的扫描次数,提高了效率。 3、现有的基于粗糙集理论的规则提取算法有极高的时间和空间复杂度,因而不适合应用于大规模数据集的数据挖掘。本文中提出了一个新的规则算法:R_Aprior算法,通过将大规模数据集划分为若干块小的数据集,并结合数据挖掘领域中经典的Apriori算法来挖掘数据集中蕴含的信息,与现有的算法相比, 该算法有可以有效的降低空间复杂度,其时间复杂度与数据集规模成线性关系,因而适合用于大规模数据集,基于三个大规模UCI数据集的仿真实验验证了该结论。 4、构造一个基于多规则集的粗糙集分类器的方法.该方法通过属性约简,构造出多个约简集,由每个约简集单独提取出规则,将每个约简集视为一个分类器,构造出一个多分类器系统。通过实验选用投票法作为该组分类器的决策策略,将该分类器组作为预分类器,以BPNN神经网络分类器作为次级分类器构造分类器组合进行字符识别,将上述的多分类器组合应用于一个实际项目中,最终的整体识别率达到设计要求。 5、随着互联网的爆炸性的增长,从WEB数据中挖掘出有用信息,即基于WEB的数据挖掘技术成为近年的研究热点。现有的基于关联规则的WEB数据挖掘方法的主要问题就在于只能处理连续的序列形式,即预测结果仅仅依赖于相邻的访问序列,而且这些序列必需是连续的,中间不允许出现间隔,这在一定程度上影响了预测的精度。本文中提出了基于粗糙集理论的WEB日志挖掘方法,该方法能够处理非连续序列的预测问题,实验证明,这种方法具有较高的预测准确率。
其他文献
协同设计(CSCD)是计算机支持的协同工作(CSCW)技术在设计领域中的应用,是当前计算机应用技术的一个重要研究领域。并发控制是CSCD的核心技术,它是协调多用户共享信息的有效手段
红外成像技术作为一种发现、探测和识别目标的手段而在军事及民用场合获得了广泛的应用。在过去几十年中,红外探测器件获得的很大发展,出现了红外焦平面器件等兼具辐射敏感和信
近几十年来,运用形式化方法对安全协议进行分析验证一直是信息安全领域研究的热点,而模型检测方法成为近年来安全协议形式化研究的主流,并产生了一系列有效的验证方法和验证工具
学位
随着计算机网络和多媒体技术的迅速发展,计算机辅助教育(CAI)也得到了飞速的发展。CAI从最初的单纯的电子课件,电子书,到引入多媒体技术的CAI,再到单机智能教学系统。如今利用计
当前,知识资产成为衡量一个企业组织核心竞争力的重要标志,企业实施知识管理有着重要的意义。如何识别组织知识以及对其进行有效的管理一直是知识管理领域学者以及企业管理者所
本文对MPEG-4及其在机载视频记录系统中的应用进行了研究。文章对MPEG-4标准的核心部分—视频编码和视频解码进行了重点研究。在视频编码部分,主要研究了视频编码的关键技术—
伴随着低功耗无线通信和微机电系统领域的不断发展,一个有趣且富有挑战的领域—无线传感网—应运而生.无线传感网由通过无线媒介连接的大量传感器节点组成,执行分布式的监测任务
随着数字图像的迅速增加,图像检索等应用受到了广泛的关注。这些应用必须面对的一个主要难题是图像固有的歧义性。同样一幅图像所表达的内容含义会因用户和情境的不同而存在差
本文论述了软件工程辅助工具集成研究与开发,主要内容包括:  (1)全面介绍了CASE的基本理论、软件过程的概念。讨论了当前常用软件工程辅助工具的现状。  (2)重点讨论了现行
本文对断层医学图像插值技术进行了研究。文章利用小波变换可聚集到信号的任意细节的特点,把二维信号分解为高频子图和低频子图,设计出了两种基于小波变换理论的断层图像间匹配