论文部分内容阅读
随着现代科学技术飞速发展,石油化工产业不断进步和发展,石油化工产品质量不断提高、种类不断多元化。当面临新颖的生产工艺、不断复杂化的过程系统时,其过程机理难以获得,机理模型难以建立。因此,基于数据的建模方法得到了越来越多的关注。基于数据的建模方法不用了解化工过程机理,却十分依赖样本数据的质量和模型的结构。而在这两方面往往会出现冗余问题。A)挑选的输入变量可能与因变量无关,且相互之间可能存在冗余。工业过程中,通过先验知识或已知部分机理知识确定足够多的变量个数,而它们之间通常存在复杂的交互关系。如果将它们都作为模型输入,就会直接增加模型输入结构的复杂度,而且冗余问题可能间接传递到模型输出,严重影响其性能。B)模型结构中的冗余问题。模型的性能与其结构的优劣息息相关,而且结构的复杂度决定了模型的计算效率。为此,本文针对这两类智能建模中的冗余问题,首先通过多元统计方法中的主成分分析,并结合互信息分析法,研究和探讨了如何消除输入变量之间的冗余问题、如何发现与因变量无关的输入变量。其次,通过偏互信息法和提出的基于偏互信息的聚类方法,消除神经网络隐含层输出之间存在的冗余问题,优化神经网络结构。本文的主要研究成果如下:(1)针对输入变量之间可能存在复杂的冗余问题,结合径向基神经网络建模,提出了基于主成分-互信息分析的径向基神经网络模型(Principal Component Analysis-Mutual Information-Radial Basis Function Neural Network, PCA-MI-RBFNN)。首先通过主成分分析,把含有冗余问题的原始输入变量转换为新变量—主成分。主成分之间互不相关,并按照样本方差从大到小构建。模型要描述的是输入和输出变量之间的关系,因此按方差最大化来选取主成分变量作为模型输入,忽略了输入与输出变量之间的相关信息。于是结合互信息分析法,可以准确分析各主成分与输出变量之间的相关性,挑选出最佳的主成分作为模型输入。经过标准测试建模数据和精对苯二甲酸生产过程中氧化单元粗对苯二甲酸中对羧基苯甲醛(4-carboxybenzaldehyde,4-CBA)含量软测量建模的测试,结果表明消除输入冗余后,PCA-MI-RBFNN模型具有良好的鲁棒和预测性能。(2)针对挑选的输入变量可能与因变量无关,且输入变量之间可能存在复杂的冗余问题,结合相关向量机建模,提出了基于互信息-主成分-互信息分析的相关向量机模型(Mutual Information-Principal Component Analysis-Mutual Information-Relevance Vector Machine, MI-PCA-MI-RVM)。针对化工过程中高维的原始输入变量,其中有些变量与因变量毫不相关,若将这些变量直接用于建模,则会导致模型不准确;有些变量虽然与因变量相关,但相互之间存在冗余问题,若将这些变量直接用于建模,则会间接降低模型性能。因此提出对原始样本数据的粗筛选方式。MI-PCA-MI-RVM方法首先通过互信息分析,获得所有输入与输出变量之间的互信息量,并根据互信息量的概率密度分布,确定区分无关变量与相关变量的阈值,剔除无关输入变量。然后,针对剩余的输入变量,通过主成分-互信息分析挑选出与模型输出最相关的主成分作为模型输入。通过对二甲苯氧化反应中的4-CBA含量软测量模型的测试,结果表明剔除无关输入变量以及消除输入冗余后,MI-PCA-MI-RVM模型具有良好的鲁棒和预测性能。(3)针对径向基神经网络的结构优化问题,提出了基于偏互信息-最小二乘的隐含层单元挑选及其网络权值和阈值更新(Partial Mutual Information-Least Square Regression-Radial Basis Function Neural Network, PMI-LSR-RBFNN)。PMI-LSR-RBFNN方法首先通过改进的互信息分析法-偏互信息方法,挑选出合适隐含层单元,这些被挑选出的单元不仅与相互之间冗余最小,而且与输出变量的相关性最大。然后,通过最小二乘,对隐含层输出与输出层输出直接进行线性回归,更新了权值与阈值,建立RBFNN模型。在英威达氧化过程燃烧副反应建模中,与基于K均值、模糊C均值、K中心点和减法聚类的改进径向基网络相比,PMI-LSR-RBFNN网络结构简洁且模型性能更佳。通过Sammon非线性映射分析,由偏互信息分析挑选出的隐含层单元在空间位置上并不是均匀分布,但表现出更佳的模型性能。同时,基于建立的模型,进行各主要操作变量的灵敏度分析,其结果符合燃烧副反应过程的已知先验知识。(4)针对多层前馈神经网络的结构优化问题,提出了基于最小冗余最大相关-偏互信息聚类方法和最小二乘的隐含层单元挑选及其网络权值和阈值更新方法(MinimalRedundancy Maximal Relevance-Partial Mutual Information Clustering-Least Square Regression-Multi Layer Feed Forward Network, mPMIc-LSR-MLFN)当变量维数增加时偏互信息会消耗大量计算时间,且容易失去估计精度,因此提出了一种新颖的最小冗余最大相关-偏互信息聚类方法。由最小冗余最大相关性分析挑选出合适的隐含层单元作为初始聚类中心;再通过偏互信息量的计算,对所有隐含层单元进行聚类,并在各类中迭代更新该类中心,直到所有中心不再变化,从而寻找到最佳隐含层单元。最后通过最小二乘法线性回归更新输出层输入与隐含层输出之间的权值和阈值。在石脑油干点软测量模型的应用中,与基于K均值、减法等聚类的MLFN和三类改进极限学习机(OP-、OS-、B-ELM)相比,mPMIc-LSR-MLFN模型结构最为简洁,预测性能最为出色。