论文部分内容阅读
近红外光谱(NIRS)分析作为一种高效、无损、安全、环保的分析技术,已经在石油石化、农业、医疗等领域得到了广泛的研究与应用。建立稳健性好和准确性高的化学计量学模型是NIRS分析的核心问题之一。支持向量机(SVM)是一种基于VC维理论和结构风险最小化原则的学习机器,在解决小样本、非线性建模问题中具有较强优势。最小二乘支持向量机(LSSVM)是SVM的改进,其将SVM中的二次规划问题转化为求解线性方程问题,有效降低了SVM的计算复杂度。本文针对C-H基团物质的NIRS建模问题,以LSSVM方法为基础,对参数优化及波长选择方法展开研究,力求获得高性能的C-H基团物质近红外光谱LSSVM模型。针对LSSVM的参数优化问题,提出了一种改进的果蝇优化算法(DAFOA),实现了LSSVM中惩罚因子和核函数参数的优化。该方法通过在一定条件下容忍次优个体和采用动态步长两方面对传统的果蝇优化算法(FOA)进行改进,增强了FOA摆脱局部极小的能力。通过实验表明,DAFOA能够提高FOA的参数寻优能力,从而更有效地实现LSSVM模型参数优化,提高LSSVM模型的预测精度。针对NIRS波长选择问题,结合LSSVM模型的理论研究,提出了一种改进的递归特征消除(IRFE)方法。IRFE以最小化LSSVM的泛化误差界为目标,采用LSSVM的泛化误差界作为准则函数评价各个波长的重要性,用改进的序列浮动选择(ISFS)方法,实现波长选择。实验结果表明,与传统递归特征消除(RFE)方法相比,IRFE能提高波长选择效率,得到更精简的波长集合。与其他波长选择方法相比,IRFE能有效提高LSSVM模型的预测精度。为进一步简化C-H基团物质近红外光谱LSSVM模型,提出了一种将C-H基团吸收区间与IRFE相结合的特征波长选择方法。该方法首先用不同C-H基团的光谱吸收中心位置为依据实现波长区间界定,然后采用IRFE方法实现波长精选。该方法能够在较大程度上避免无效特征波长的选入,同时可大幅度降低波长选择的复杂性。实验结果表明,与基于全谱的IRFE相比,该方法可以有效降低波长选择时间,获得更精简的波长集合,提高LSSVM模型的泛化能力和预测精度。