浅谈模式识别中的特征选择技术

来源 :读天下 | 被引量 : 0次 | 上传用户:yuzhangbin
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  摘要:在模式识别领域内,随着科技的不断发展,数据压缩技术的不断成熟,海量信息特征的时代也随之到来。这些信息特征中却包含着大量的冗余信息特征,极大地影响了对分类模型的架构及其分类性能。因此,极大地需要在模式识别中采用特征选择技术,选择出对分类判别分析有用的信息特征。
  关键词:模式识别;冗余信息特征;特征选择
  一、 前言
  随着科学技术的不断发展,信息时代也随之而来。在面对海量而且又复杂的样本数据信息时,人类不得不去对相关的信息进行处理。然而实际上,在信息处理的过程中有一个极其重要的形式,就是生命体对客体或者说是所处的环境的识别,我们把环境或者客体之类的统称为模式。模式识别(Pattern recognition)则是通过利用各种数学工具、技术方法来对事物进行表示,从而对事物进行描述、辨别、解释以及分类的一个信息处理过程。模式识别包括很多,有语音模式识别、光学字符识别以及声学信息识别等很多方面。由于具有海量的数据信息,而这些数据信息中,有很多信息都是“多余的”。所谓的多余是指这些信息包括很多冗余的信息或是对研究目的地辨别、分类无关的一些信息特征,所以我们在信息处理的过程中,需要对这些信息进行加工处理,这里我们就要用到特征选择技术。特征选择(feature selection)又叫属性选择(attribute selection)是指从原始的信息特征中选择出一些最有效的信息特征以便能够降低特征的维度的过程,其也是模式识别体系的基本流程中的一个关键技术所在。经过特征选择技术,我们可以降低特征的維度,去除那些复杂信息中所包含的冗余特征(redundant features)和不相关的特征(unrelated features),还可以降低计算过程中的复杂性以及分类模型的复杂性,改善分类判别性能。因此,特征选择技术对于模式识别来说是一个极其重要也是必不可少的关键步骤。
  二、 特征选择技术的评价函数
  在模式识别系统中,我们需要对特征子集进行评价从而判断所选择的特征子集是否有效,是否能够改善最终的分类判别的分类精度,这里就需要用到相应的评价函数。在经过不同的评价函数所选择出的特征子集的最优性或是次优性也是不同的。依据特征评价函数与学习方法之间的关系,我们可以将评价函数分为独立的评价函数以及非独立的评价函数。
  独立的评价函数,顾名思义,它是和学习方法无关的,它只是依据训练样本本身所具有的信息特征来对特征子集的判别分类性能进行评价。一般而言,在模式识别过程中,我们经常用到的独立的评价函数包括信息评价函数(信息熵、信息增益等,若某个信息特征A的信息增益要高于信息特征B的信息增益,则我们可以优先选择信息特征A)、距离评价函数(其中常用到的距离准则有欧氏距离、马氏距离、余弦距离等)、以及相关性评价函数(其中常用到相关系数来衡量某一特征与类别之间的相关程度)。非独立评价函数,它与学习方法是密切相关的,其是根据学习方法的分类性能来对所有的特征集合进行的评价(其中常用到的非独立函数就是正确分类率)。
  三、 特征选择技术的分类
  在模式识别系统中,在对所提取的特征进行选择时,我们有不同的选择方法。依据评价函数与学习方法之间的关系,我们可以将特征选择技术分为滤波式(filters)、封装式(wrappers)、混合式(hybrid)以及嵌入式(embedded)特征选择方法。
  滤波式特征选择技术是与分类算法相独立的,它也和分类算法中所涉及到的参数以及分类过程中的分类性能时完全无关的。一般而言,滤波式特征选择技术经常采用独立的评价函数。因此,当我们改变评价函数的时候,我们就可以得到各种各样的滤波式特征选择方法。滤波式特征选择方法具备通用性的特性,正是由于它的通用性,我们才可以凭借这种方法来解决各种各样的有关特征选择的问题。但是这类方法也有其缺点,即由于与分类算法是相互独立的,所以通过该类方法所选择出的特征子集的分类性能一般都要劣于其他的分类方法。
  封装式特征选择技术与滤波式特征选择技术不同,其所采用的评价函数是非独立的评价函数,它是通过利用特征集合的分类性能来得到最优的特征子集或者是次优的特征子集。其中,对特征子集评价的评价函数是与学习方法紧密相关的。该类方法是将特征选择的过程与学习方法结合起来,从而寻求对判别分类性能最好的特征子集。与滤波式特征选择技术类似,我们通过改变学习的算法,也可以得到各种各样的封装式特征选择技术方法。但是该算法也有其缺点,即复杂程度高,运算量极大。
  对于混合式特征选择方法而言,其充分地利用了滤波式及封装式各自的优点,来提供一种特征选择思路。在特征选择的过程中,该类方法同时地使用了独立的评价函数以及学习算法来对特征子集进行评价,其步骤是首先通过独立的评价函数来选择出一系列的最优特征集合,再通过使用学习算法来对这些候选的特征集合一一分析处理,从而挑选出最终的最优特征集合。
  对于嵌入式特征选择方法而言,它是充分考虑了学习算法固有的一些结构,这类方法的思想就是将特征选择技术嵌入到学习算法中,从而架构出一系列的嵌入式特征选择方法。比如说,经典的决策树算法(decision tree algorithm),该算法是一种预测模型,是一种树形结构,算法中的基元—节点有着选择的作用,通过每个节点,我们可以选择出那些对分类判别能力好的信息特征。
  四、 结语
  特征选择技术方法多种多样,具体问题可具体分析,也可以根据自己的需求,结合本身的条件来选择出适合的分类方法。
  参考文献:
  [1]杨宏晖,戴健,孙进才,等.用于水声目标识别的自适应免疫特征选择算法[J].西安交通大学学报,2011,45(12):28-32.
  [2]李玲,刘华文,徐晓丹,等.基于信息增益的多标签特征选择算法[J].计算机科学,2015,42(7):52-56.
  [3]王力波,王耀力,常青.生物信息学中的特征选择[J].太原理工大学学报,2017,48(3):458-468.
  作者简介:
  李星星,江西省南昌市,江西科技师范大学。
其他文献
我所是一个刚从镇级医院独立出来的镇级卫生防疫机构,地处我国改革开放的前沿深圳市宝安区西乡镇,负责该镇五十多万人的卫生监督、监测、疾病控制、计划免疫等预防保健工作,
高职医学教育在短短几年内发展十分迅速,从表层上看,它表现为规模的急剧扩大与内涵的延伸,从深层次和发展历程看,它实际上是高等教育制度正在经历着一个重要的转型.这种转型
这是“腾讯棋牌·天天象棋”2017年全国象棋男子甲级联赛第一阶段赛会制第三轮的一盘对局,由杭州环境集团队的李炳贤大师执先手对阵京冀联队的特级大师蒋川。两队前三台战
加强医患沟通,是减少医疗纠纷、缓解医患关系的重要手段,同时也是提高医疗质量、提高医院声誉的需要.通过加强医惠沟通,使医惠之间出现了相互理解的氛围,医患关系得到明显好
每个人都有许多面,但他们都会隐藏起自己的另一面,以不同的方式面对不同的人。  我家附近就有这么一种人,大家都喊他“小三”——在家排行第三。虽然这个称呼有点歧义,但是他并不怎么在意。  住在周围的人都很清楚“小三”,他是一个有点势利的人。没有一点家底的人,他几乎都不怎么用正眼看。小三本是处于上学的年龄,可不知为什么,有一天突然辍学回家,说是不读了。于是不知道找了哪路子的关系在一家饭店打工。这家饭店经
在市场经济环境中,医院的发展和进步主要依靠高水平的业务技术人才.然而,由于弱化的竞争、薄弱的医院文化、弱化的培训体制等多方面的原因,医院的业务技术人才出现了退化的问
目的探讨艾箱灸联合耳穴贴压法治疗椎间盘突出症的临床效果。方法回顾分析连州市中医院2011年1月~2013年1月期间接受治疗的椎间盘突出症中后期患者,随机将患者平均分成三组,按照
中国古典舞有着悠久的历史和丰富的内涵,它是我国舞蹈艺术的精华,在表现形式上它借鉴了戏曲舞蹈的成分,并吸收了中国武术的精华,融入了现代审美取向,成为具有民族特色和时代
在小学语文当中,在进行完基本的拼音教学和识字教学之后,阅读教学将会在小学语文当中占用很大比例。而在学生获取知识和信息的过程中,阅读是一种非常重要的途径,所以阅读能力对于
笔者总结了26例点状植皮治疗血栓闭塞性脉管炎护理特点.重点介绍了心理护理、术前的创面感染监测、正确处理创面,采取消毒隔离措施,预防交叉感染,术后观察受区皮瓣存活及其周