粗糙集理论及发展现状研究

来源 :电脑迷 | 被引量 : 0次 | 上传用户:mimibbs
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  摘 要 粗糙集理论是一种新颖、有效的软计算方法,是分析和处理不完备信息的一种数学工具。本文介绍了粗糙集理论的基本概念和发展历程,阐述了粗糙集理论的应用领域。
  关键词 粗糙集 模糊集 神经网络
  中图分类号:O24 文献标识码:A
  0 引言
  随着大规模数据库的广泛使用和因特网的迅猛发展,庞大的信息量已渗透到社会生活和生产的各个领域。由于人的参与以及自然语言中存在的模糊性和歧义性使得数据与信息不够准确,甚至不完整。如何处理这些模糊的、不确定的、不完整的大量信息,从中获取潜在的、正确的、有利用价值的知识?
  粗糙集(Rough Set)理论是一种刻画不完整性和不确定性的数学工具,能有效分析和处理不精确、不一致和不完整等各种不完备信息,并从中发现隐含的知识,揭示潜在的规律。 它对人工智能和认知科学非常重要,且为数据挖掘、机器学习、决策分析和支持系统、模式识别、粒度计算、近似推理等领域的信息处理提供了很有效的理论框架。
  1 粗糙集理论基础
  1.1 与知识相关的定义
  定义1 知识库:假设R是在论域U基础上的一个等价关系,那么,U/R则表示为该论域U上R的等价类构成的集合,所以,一个关系系统K = (U,R)就是一个知识库。并且,一个知识库对应着一个划分。通常情况下,我们用等价关系来代替分类,因此,知识库代表了对论域U的一种分类能力。
  定义2 不可分辨关系:如果P€H誖且P≠Q,那么∩P(P中全部等价关系的交集)也是一种等价关系,称其为P上的不可分辨关系,记为(P),此时U/(P),表示成ind(P)上的等价关系簇P的等价类构成的集合,即与P相关的知识。
  1.2 上、下近似集、正域、负域、边界域
  定义3 上近似集、下近似集:给定知识库K = (U,S),S表示论域U上的等价关系簇,则€HOX€H誙和论域U上的一个等价关系R∈IND(K),定义子集X关于知识R的上近似集和下近似集分别为:
  上近似:(X) = {∈U:[]R∩X≠€HT}
  下近似:(X) = {∈U:[]R€H誜}
  定义4 正域、负域和边界域:(X) = (X)称为X的R正域。表示论域U中R的某个或某些划分完全属于X。(X) = U(X)称为X的R负域,表示根据知识R,肯定不属于集合X的U中元素组成的集合。上近似和下近似的差(X) = (X)(X)称为X的R边界域,表示根据知识R,不能肯定属于集合X也不能肯定属于集合一X的U中元素组成的集合。由此可知,集合的不确定性是由边界域引起的。
  1.3 信息系统
  定义5 信息系统:四元组IS = (U,C,V, )是一个信息系统,其中U = {,,…},为对象的非空有限集合,即论域; = {∣∈C}为属性的非空有限集合,每个∈C(1≤≤)称为C的一个简单属性;V = ∪表示信息函数 的值域,为属性的值域; = {∣:U→}表示IS的信息函数,为属性的信息函数。
  当€HO∈C,€HO∈U,()没有缺省值时,我们称信息系统是完备的,否则是不完备的。如果在知识系统KRS中,令A = C∪D(C∩D = €HT),其中C称为条件属性集,D称为决策属性集。若D = €HT,则知识表达系统就是一个信息系统(信息表);若D ≠ €HT,则称知识表达系统是一个决策表。
  2 粗糙集理论的背景及应用
  粗糙集理论是波兰科学家Z· Pawlak于1982年提出的一种关于数据分析和推理的理论。1991年Z·Pawlak出版了第一本关于粗糙集的专著《Rough set:theoretical aspects of reasoning about data》,成为粗糙集理论研究的第一个里程碑。1993年在加拿大召开第二届国际粗糙集理论与知识发现研讨会,由于当时正值数据库知识发现(KDD)成为研究的热门话题,一些著名KDD学者参加了这次会议,介绍了许多应用扩展粗糙集理论的知识发现方法与系统。我国对粗糙集理论的研究起步较晚,始于20世纪90年代初期。王珏等人在将粗糙集理论引入作出了重要贡献。2001年5月在重庆举行了第一届中国粗糙集理论与软计算学术研讨会(CRSSC)。
  粗糙集理论与模式识别、机器学习、数据库等理论相结合,开发了多个原型系统,其中有代表性的有Rosetta系统、KDD-R系统、LERS系统等。粗糙集应用在许多方面。
  2.1 连续属性的离散化
  一般来说,数据库中的属性可以分为两种类型:一种是连续(也称定量)属性,表示对象的某些可测性质,其取值自某个连续区间,如温度等;另一种是离散(定性)属性,这种属性值使用语言或少量离散值来表述,如性别等。在大多数情况下,同一个数据库中既包含连续属性,也包含离散属性。粗糙集理论为处理离散属性提供了很有效的工具,但遗憾的是不能直接处理连续属性。所以,连续属性的离散化是制约粗糙集理论实用化的难点之一。目前已有一些离散化方法:Slowinski在研究一个医疗诊断决策表的粗糙分类时,利用粗糙集理论将这类数据转换成定性词或词汇表示的属性值,如低、中、高等,在医疗诊断实践中,这种转换一般是根据专家的经验标准来完成的,像这样利用领域知识进行连续属性离散化的方法称之为S方法。
  2.2 不完备信息处理
  由于一些原因,如对数据测量的误差、数据处理和数据获取的限制等,造成数据丢失,而经典粗糙集理论只能处理完备的信息系统。为了利用粗糙集理论处理不完备数据,很多学者提出了各自不同的方法,基本上都是基于对等价关系的泛化来解决的。如相似关系、容差关系、限制容差关系等。粗糙集理论在不完备信息系统中的应用增大了其实用性。
  2.3 粗糙集与模糊集   粗糙集和模糊集在处理不确定性和不精确性问题方面都推广了经典集合论,都能处理不完备数据,但方法不同,粗糙集强调数据的不可辨别、不精确和模棱两可,模糊集则注重描述信息的含糊程度。虽然有一定的相容性和相似性,但它们的侧重面不同:粗糙集理论的计算方法是知识的表达和简化,模糊集理论的计算方法主要是连续特征函数的产生;从集合的关系来看,粗糙集强调的是对象间的不可分辨性,而模糊集强调的是集合边界的病态定义上的,即边界的不分明性;从知识的“粒度”的描述上来看,粗糙集是通过一个集合关于某个可利用的知识库的上下近似来描述的,而模糊集通过对象关于集合的隶属程度来近似描述的;从研究的对象来看,粗糙集研究的是不同类中的对象组成的集合关系,重在分类,而模糊集研究的是属于同一类的不同对象间的隶属关系,重在隶属程度。因此粗糙集和模糊集是两种不同的理论,但它们又不是相互对立的,在处理不完备数据方面可以互为补充。目前已有的模糊粗糙集模型有Radzikowska模型、Morsi模型、Dubois模型、Greco模型、MI模型、Wu模型等。
  2.4 粗糙集理论与神经网络
  粗糙集和神经网络是数据挖掘中是常用的两种技术,但它们在处理信息时存在两方面的差别:一是人工神经网络处理信息时,一般不能将输入信息空间的维数减少,所以输入的信息空间维数较大,网络不仅结构复杂,而且训练时间很长,而粗糙集方法通过挖掘数据间的关系,不仅可以去掉冗余输入信息,还可以简化输入信息的表达空间;二是在实际问题的处理中,粗糙集方法对噪声较敏感,而人工神经网络方法有较好的抑制噪声干扰的能力。用无噪声的训练样本学习推理的结果去处理有噪声环境中的信息,一般应用效果不佳。所以,将两者结合起来,把粗糙集方法作为人工神经网络的前置系统,有以下优点:
  (1)通过粗糙集方法去掉冗余信息,使训练集简化,以便减少人工神经网络的训练时间;
  (2)通过粗糙集方法减少信息表达的属性数量,减少构建人工神经网络系统的复杂性,同时也减少后继流程中信息作为网络输入时的特征值计算时间;
  (3)使用人工神经网络作为后置的信息识别系统,有较强的容错及抗干扰能力;
  (4)因为粗糙集理论在简化知识的同时,很容易得出决策规则,所以也可以作为后续使用中的信息识别规则,将粗糙集方法得到的结果与人工神经网络方法得到的结果相比较,从而作进一步修正。
  3 结束语
  粗糙集理论是一种新颖、有效的软计算方法。虽然该理论产生至今只有二十几年的发展历史,但在诸多领域获得了广泛的应用,并且取得了一定的研究成果。而且粗糙集理论及其应用研究还处在继续发展中,相信会有越来越多的学者加入其中,共同促进该学科在更多的实际应用领域中发挥作用。
  参考文献
  [1] 王国胤,姚一豫,于洪.粗糙集理论与应用研究综述[J].计算机学报,2009,7(32):1229-1246.
  [2] 陈奇南,梁洪峻.模糊集和粗糙集[A].计算机工程,2002,8(28):138-140.
  [3] 黄正华,胡宝清.模糊粗糙集理论研究进展[A].模糊系统与数学,2005,4(19):125-134.
  [4] 胡可云,陆玉昌,石纯一.粗糙集理论及其应用进展[A].清华大学学报(自然科学版),2001,1(41):64-68.
  [5] 夏红霞,刘春燕,邹承明,吴青,李宝.粗糙集在神经网络结构优化中的应用研究[J].计算机与数字工程,2008,4(36):41-43.
  [6] 杨传健,葛浩,汪志圣.基于粗糙集的属性约简方法研究综述[A].计算机应用研究,2012,1(29):16-20.
其他文献
如果要评选中国最容易被骂的公司,我想电信运营商理应当选。不仅平日不受用户待见,每年的315也会被重点照顾,而最近的“微信收费”风波也让电信运营商成了众矢之的,差点没被喷死。大学时代,我的专业恰恰就是“通信工程”,而当时最好的出路就是进入各大电信运营商任职。转眼过去快十年了,运营商的日子不再好过,对于这一点,我那些分布在全国各地运营商的同学最有发言权。  五年前有人告诉我,腾讯谁都不怕,就怕中移动。
期刊
梁宗岱是现代文学史上极具个性的诗论家之一。他在三十年代以象征主义为核心所进行的诗学理论建构极大地推动了中国新诗现代化的进程。他是以诗人身份从事理论建构的。他始终
本文通过对荣华二采区10
占据富集的资源优势,保山昌宁俨然成为了云南茶产业的“后起之秀”。每到茶叶采收季节,各地茶商蜂拥入昌宁寻找性价比高的好茶。娃哈哈、康师傅的冰红茶,更是早几年就用上了
《阅微草堂笔记》是清代学者纪昀晚年所著的一部文言笔记小说,自面世即风行天下,成为文言笔记小说创作的典范,影响深远,仿作众多。学界中对《阅微》的研究已经相当透彻,但对其仿作
为了进一步推动微生态领域的基础和临床研究,加强微生态领域科研和临床工作人员相互间的学术交流,中华预防医学会微生态学分会拟定于2010年10月9日至11日在深圳市召开第十届
传统的开关型正弦电压源采用的是 PWM技术与 PID控制相结合的方法 ,它是对参考正弦信号的跟踪控制 ,鲁棒性较差。本文针对这类开关型的正弦电压源 ,使用变结构控制策略 ,提高
“同光体”是一个具有时代标签意义的文学史概念,学术界一般将光宣朝期间以陈衍、陈三立、郑孝胥、沈曾植等为代表的一批从事古体诗歌创作时“不主唐音”,崇尚宋诗诗歌格调的
随着教育改革的开展,既看到了成效,但在成效背后也存在着许许多多的问题,特别是在小学语文的课堂上,小学生的阅读量还是相对薄弱,小学语文教师应该发扬带头人的作用提升小学
期刊
在卡夫卡的成长历程中,死亡是他一直要逃避却始终无法逃脱成功的恐惧。死亡意识,一直围绕在卡夫卡的生活及文学创作中。犹太人的流浪身份,童年经历的阴影,父母亲的影响,还有中学阶