光谱处理与分类方法综述

来源 :科学家 | 被引量 : 0次 | 上传用户:yoyo1028
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  摘 要 當物质与辐射能相互作用时,其内部的电子、质子等粒子发生能级跃迁,对所产生的辐射能强度随波长变化作图,所得到的谱图称为光谱。而光谱分析法主要通过物质光谱作出定性、定量及结构分析。光谱技术和光谱检测技术是操作简单、快速、无污染、高效、低成本的无损检测技术。光谱也常用于物质识别领域,对物质识别的前提是对不同光谱进行分类。由于不同光谱产生的机理不同,所产生的物理现象也不同。因此,光谱分析方法的分析方法也多种多样。本文主要对比一些光谱分析中涉及的数据处理,特征提取方法及其优缺点。
  关键词 光谱分析;分类方法;比较
  中图分类号 O4 文献标识码 A 文章编号 2095-6363(2017)15-0122-03
  当前光谱分析法在各个领域得到了广泛应用,优势比较明显,包括样品无损、前处理快速、分析效率较高、有良好的重复性及能够实现在线分析等,在工业、农业、烟草、医药和食品等方面发挥着重要作用。支持向量机具有相对较高的精度;小波变换可以实现多尺度局域分析信号,基本上不会受到续谱带来的营销,在光谱处理领域应用很多。以建立分类面形式对光谱进行分类,广义判别分析中结合了核技巧和Fisher判别分析,以非线性映射的方式把样本集映射至高位特征空间F,同时作出线性判别分析。现阶段BP神经网络被使用很多,非线性映射能力很强,可以在训练后让输入和输出两种变量具备非线性关系。在Bayes决策中, 需要估计类条件概率密度函数。
  1 光谱数据的预处理
  通过仪器将原始光谱采集起来,其中不仅有和样品构成相关信息,并具备其他方面因素形成的噪音信号。数据预处理过程中,一般会用到光谱数据平滑、基线校正、求导及归一化处理等方法。
  为将噪声完全消除,一般会首选信号平滑方法,假设为光谱中存在噪声等于零均随机白噪声,要多测量几次求出平均值,这样能够让噪声降低,并实现信噪比提升。光谱数据的平滑处理也叫数字滤波器,其一般可用式子表示为:
  通过选取不同的脉冲函数进行卷积可得到不同的光谱分辨率,因而高频率随机噪声可通过选用较窄的脉冲函数卷积而滤掉。对傅里叶变换而言,即时间域函数和频率域函数存在如下关系:
  通过傅里叶变换可以加快提取信息的过程,同时可以去掉干扰信号和噪声。由于傅里叶变换具有极强的数据压缩能力,因此,在近红外光谱的分析中其也被用于特征提取[1]。
  近红外分析会受到仪器背景和样品粒度等方面的影响,容易发生基线漂移、倾斜等情况,利用基线校正,能够避免出现以上情况。对此要采取谷峰点扯平、偏移扣减、微分处理及基线倾斜等方式,这里面一阶与二阶微分使用较多,不过对微分处理而言,应合理选用微分级数及数据点[2]。
  2 特征提取
  在一条曲线表征中,不用将该曲线上全部点均进行表示,很多时候只需要将其中部分特殊点确定下来即可。对此,在两条光谱曲线相似性判断过程中,通常比较其拐点的位置及大小的相似性就可以了[3]。对于光谱的特征提取常用的方法有:小波变换(wavelet)、覆盖算法和广义判别分析等方法等[4]。
  2.1 小波变换
  小波变换能够对信号进行处理,主要在传统Fourier分析基础上发展而成。傅里叶变换属于整体上进行的变换,对非平稳信号最关键的时频局域性质而言,是不能表征的。使用小波分析方法,可以将信号各尺度信息提取出来。光谱不一样,谱线类型、位置及强度也存在很大差异,对此光谱信息也可以看作是局部信息。连续谱与光谱内缓变的低频成份相对应,谱线与噪声与光谱内高频成份相对应,光谱小波系数能够将谱线与噪声信息反映出来。利用小波分解的高频分量的局部极值点将各种矿物光谱的吸收特征比较精确地提取出来[5]。
  数学上离散小波变换表示一个有限长序列与一个离散小波基的内积,所有内积因子均为一个离散的小波变化值,可用以下公式进行表达:
  其中是一个离散小波变换值,是一个长度为的序列。
  是离散小波基,与为对应的离散小波尺度与平移参数,*为复数共轭。
  它在特征提取阶段并没有使用训练数据的类别信息, 能够对信号进行多尺度局域分析,受连续谱的影响较小。分类器对噪声的敏感性就会大大降低。对存在突变非平稳函数进行处理的过程中,具备极高分辨率,可以让时域与频域分析一起进行。但是小波基的选取在实际应用中比较困难。
  2.2 覆盖算法
  把分类问题转化成集覆盖问题,以最少数目的覆盖集为优化目标,不用考虑特征空间是否具备线性可分性特征。利用覆盖算法,可以把分类面计算问题变成基于样本点距离的覆盖问题。因为覆盖算法具备构造性特征,不会出现收敛性与收敛速度问题,从而便于计算。
  其原理如下:假设在N维特征空间中有两类训练样本:,。若存在,和一组正数,使得并且,则称,为训练样本的覆盖集,集合和为相应的支持向量集。为解决非线性和减少计算,杨金福等提出了一种结合核技巧的核覆盖算法,并用于星体的光谱识别中[6]。
  2.3 广义判别分析
  这种方法主要结合了核技巧和Fisher判别分析,主要利用一个非线性映射,把输入空间样本映射至高维特征空间中,同时作出线性Fisher判决分析,这样能够进行相对于输入空间的非线性判决分析。实现了非线性的判别分析特征提取,是一种面向分类的特征提取方法[7]。令Φ为输入空间到特征空间F的非线性映射,即在F空间中进行线性Fisher判决,其扩展准则函数为
  这里面,;F空间内假设数据变得中心化,与是对应F 空间的类间散度矩阵与总散度矩阵。
  上式里面,
  求最优的WΥ等价于求解下述广义特征值和特征向量问题:F空间维数极高,同时Υ为隐式映射, 即存在如下关系:
  于无法将数值准确计算出来,对此以上公式表达F空间内积形式,要将核函数引进来。不用将显示的非线性映射Φ给出来,利用输入空间内定义的内积核算数进行全面运算,即核技巧。核函数不一样,表示的非线性映射Φ也存较大差异,现阶段主要采用高斯核、多项式核及Sigmoid核。   3 分类算法
  3.1 支持向量机
  图1为主要思想,借助某种非线性映射,把输入向量x映射值一个高维的特征空间Z内,建立起最优分离超平面[8]。学习的目标是构造一个决策函数,将测试数据尽可能正确地分类。这里面圆形与星形点表示2类样本,H表示分类面,H1和H2与分类面平行,同时全部样本点在H1和H2外面,分类间隔为H1和H2的距离。对最优分类面而言,除了可以正确分开样本以外,同时还可以增加分类间隔。
  设样本符合那么样本间分类间隙是
  ,让分类间隙最大等价于让最小,所以符合这个条件同时让
  最小的分类面为最优分类面。支持向量机通过最大化分类间隔来控制泛化。其对线性和非线性映射都具有较好的分类能力,对于非线性映射,通过一个函数将训练集数据集,映射到一个高维线性特征空间,再构建最优分类超平面。决策函数为
  。
  这种方法可通过最大化分类间隔来控制泛化能力,实现了结构风险最小化。对于非线性可分样本,通过核函数实现训练样本的内积运算,解决算法可能导致的“维数灾难”[9]。高维样本和低维样本处理方式差不多,通过对核函数的引入可以完成非线性映射,并进行非线性处理。对于高光谱遥感图像进行分类时,采用径向基核函数的SVM具有较高的识别率[10]。其模型结构预先不确定,训练时按照学习对象进行确定。但是该方法计算复杂,涉及收敛性及收敛速度问题,需要求解二次规划问题。
  3.2 BP神经网络
  主要原理是信号特征参数运用BP网络在学习大量样本以后自动形成若干种类别。BP网络的网络学习过程包括输入信息正向传播与误差反向传播,对前者而言,输入信息会先后经历输入层、隐含层及输入层,在逐层求解以后,可以获得一个实际输出,若是该结果和期望输出存在很大差异,表明计算输出误差,并进行误差反向传播,这样可以让每个层神经元间的权值得到修正,从而最大限度减小误差。自学习为神经网络的一个重要特点,对样本模式进行自学习以后,能够将信息内在机制模拟出来,获得输入和输出的高度非线性映射。借助人工神经网络构建模型时,需要用大量数据来训练网络,网络将可以获得输入与输出的关系,适用于复杂过程,通过人工神经网络构建的数学模型,可以保证其具备较高的精确性。而在实际光谱分析中,神经网络的节点不宜过多。因此,需要对高维的光谱数据进行降维后再对神经网络输入[11]。
  多元线性回归、逐步多元线性回归、主成分回归及偏最小二乘法等方法均为假设被研究体系为线性加合体系,因而都有其局限性[12]。而神经网络具有很强的非线性映射,自适应学习能力,因此其对于处理这类非线性分类有着突出的优点。对光谱数据先进行离散余玹变换压缩后,再进行神经网络建模,可以极大提高神经网络的训练速度和预测准确度。但是构造神经元网络非常复杂。神经元网络在学习速度、结构选择、特征表示、模块性、缩放性等方面出现了很多问题,容易陷入局部极小。对模型过于依赖,需要大量的训练样本。
  3.3 基于最小错误率的贝叶斯决策
  假设要识别的物理对象有d种特征量,称为d维特征向量。若是出现模式分类问题,为最大限度避免发生分类错误,需要采取贝叶斯公式,则获得的分类规则错误率最低,即基于最小错误率的贝叶斯决策。若是需研究分类问题存在c个类别,各类别状态通过进行表示,对应于各个类别发生验概率是,类条件概率密度函数是。给出一个观察样本x,按照贝叶斯公式有
  条件概率为类别状态的后验概率。对贝叶斯公式而言,主要是通过对样本x的观察,将类别状态的先验概率转化成状态的后验概率。
  該方法比较成熟,能考虑干扰、噪声等影响,识别模式基元能力强。但是对于不同的核宽,其识别率有较大变化[13]。对结构复杂的模式抽取特征困难。需要计算数据的一些统计量如偏差和方差,这往往是比较难以进行的,无法将模式结构特点表现出来,也不能对模式性质作出正确描述,从而不能在整体上对问题进行识别与考虑。
  参考文献
  [1]李民赞.光谱分析技术及其应用[J].北京:科学出版社,2006.
  [2]张银,周孟然.近红外光谱分析技术的数据处理方法[J].红外技术,2007,29(6):345-348.
  [3]王增柱,刘同怀,黄鲁.基于光谱分类的超光谱数据压缩方法[J].遥感技术与应用,2001,16(3):148-152.
  [4]李乡儒,冯春明,王永俊,等.一种新的光谱特征提取方法[J].光谱学与光谱分析,2011,31(10):2856-2860.
  [5]孙桂玲,张翠兰,方勇华,等.小波变换在光谱特征提取方面的应用[J].量子电子学报,2006,23(1):22-26.
  [6]杨金福,许馨,吴福朝.核覆盖算法在光谱分类问题中的研究[J].光谱学与光谱分析,2007,27(3):602-605.
  [7]杨国鹏,余旭初.高光谱遥感影像的广义判别分析特征提取[J].测绘科学技术学报,2007,24(2):130-132.
  [8]邓巍,张录达,何雄奎.基于支持向量机的玉米苗期田间杂草光谱识别[J].光谱学与光谱分析,2009,29(7):1906-1910.
  [9]谭琨,杜培军.基于支持向量机的高光谱遥感图像分类[J].红外与毫米波学报,2008,27(2):123-128.
  [10]覃冬梅,胡占义,赵永恒.基于支撑矢量机的天体光谱自动分类方法[J].光谱学与光谱分析,2004,24(4):507-511.
  [11]林敏,吕进.基于神经网络与近红外光谱的玉米成分检测方法[J].红外技术,2004,26(3):78-81.
  [12]苏红军,盛业华.高光谱影像的改进K—均值监督式聚类分析方法[J].武汉大学学报(信息科学版),2012,37(6):640-643.
  [13]刘蓉.基于Bayes决策的光谱分析[J].光谱学与光谱析,2010,30(3).
其他文献
传统的语文教学太重视语文课堂传道授业解惑之功能,所以,课堂模式是教师讲,学生听,语文课堂成了教师阅读分析的课堂,这样的课堂必须改变。针对这样的要求,教师必须改变原有的
初一数学是中学数学的基础,要提高中学数学教学质量,必须从初一抓起.在教材内容上,初中《代数》第一册涉及到了数、式、方程和不等式,这些内容都与小学数学中的算术数、简易
越来越多的跨国企业实施了本土化营销,本来以本土资源取胜的本土企业,唯一的优势也要被抢占,双方PK,拿什么赌明天?各自胜算有多少?  跨国公司因经济实力、营销运作的成熟化,带着天然的优越感进入中国市场,但跨国公司在中国市场的竞争,也并非所向披靡、无可抵挡,事实上,因傲慢与隔膜导致水土不服而败退的案例,与成功案例一样多。从30年中国市场的竞争实态及跨国公司在中国的营销实践看,在所有开放竞争的行业,跨国
我们现在都有这样一种认识,只听老师滔滔不绝、不闻学生书声琅琅的语文阅读课,不是好的语文课。特级教师余永正强调,语文教学要“读”占鳌头,以读为主,以读为本。于是,在我们
学困生通常是指那些在品行或学习成绩等方面都暂时落后的学生,这些学生有自制力差、自觉性低、反复性强的特点。因此班主任工作中最头痛的就是学困生的转化问题,很多人颇费心
绿色是生命的象征,绿色是文明的标志。我校倡导“绿色、生命、爱”的绿色行动,正为一个个绿色的生命奠基。本着绿化美化与学校建设相结合,与校园文化建设相结合,与学校精细化
小学数学课堂教学是数学活动教学,是教师和学生之间、学生和学生之间的交往互动、共同成长的过程。在小学数学课堂中实施教学交往对提高课堂有效性具有重要的意义。就如何提
计算方法既然存在着多样化,那么学生找出了自己的方法后,并认为哪种方法最适合自己,就应允许他使用。一种算法不是上完一节课就被搁置,对于自己找到的方法,学生有一种积极的
在营销领域,不卖价格,不卖商品本身,卖的是商品上承载的回忆,这种以物理属性商品为载体,销售其包含的感性内涵——回忆,或以回忆为焦点,引起关注与共鸣,继而促销产品的营销方
评价一词泛指对人或事物的价值判断。最早见于我国北宋时期的《宋史.戚同文传》,书中有“市物不评价,市人知而不欺”的记载。此处的“评价”实质上是对“物”的价值的一种判