智能建模中冗余问题的分析与处理及其应用

被引量 : 6次 | 上传用户:zikao0606
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着现代科学技术飞速发展,石油化工产业不断进步和发展,石油化工产品质量不断提高、种类不断多元化。当面临新颖的生产工艺、不断复杂化的过程系统时,其过程机理难以获得,机理模型难以建立。因此,基于数据的建模方法得到了越来越多的关注。基于数据的建模方法不用了解化工过程机理,却十分依赖样本数据的质量和模型的结构。而在这两方面往往会出现冗余问题。A)挑选的输入变量可能与因变量无关,且相互之间可能存在冗余。工业过程中,通过先验知识或已知部分机理知识确定足够多的变量个数,而它们之间通常存在复杂的交互关系。如果将它们都作为模型输入,就会直接增加模型输入结构的复杂度,而且冗余问题可能间接传递到模型输出,严重影响其性能。B)模型结构中的冗余问题。模型的性能与其结构的优劣息息相关,而且结构的复杂度决定了模型的计算效率。为此,本文针对这两类智能建模中的冗余问题,首先通过多元统计方法中的主成分分析,并结合互信息分析法,研究和探讨了如何消除输入变量之间的冗余问题、如何发现与因变量无关的输入变量。其次,通过偏互信息法和提出的基于偏互信息的聚类方法,消除神经网络隐含层输出之间存在的冗余问题,优化神经网络结构。本文的主要研究成果如下:(1)针对输入变量之间可能存在复杂的冗余问题,结合径向基神经网络建模,提出了基于主成分-互信息分析的径向基神经网络模型(Principal Component Analysis-Mutual Information-Radial Basis Function Neural Network, PCA-MI-RBFNN)。首先通过主成分分析,把含有冗余问题的原始输入变量转换为新变量—主成分。主成分之间互不相关,并按照样本方差从大到小构建。模型要描述的是输入和输出变量之间的关系,因此按方差最大化来选取主成分变量作为模型输入,忽略了输入与输出变量之间的相关信息。于是结合互信息分析法,可以准确分析各主成分与输出变量之间的相关性,挑选出最佳的主成分作为模型输入。经过标准测试建模数据和精对苯二甲酸生产过程中氧化单元粗对苯二甲酸中对羧基苯甲醛(4-carboxybenzaldehyde,4-CBA)含量软测量建模的测试,结果表明消除输入冗余后,PCA-MI-RBFNN模型具有良好的鲁棒和预测性能。(2)针对挑选的输入变量可能与因变量无关,且输入变量之间可能存在复杂的冗余问题,结合相关向量机建模,提出了基于互信息-主成分-互信息分析的相关向量机模型(Mutual Information-Principal Component Analysis-Mutual Information-Relevance Vector Machine, MI-PCA-MI-RVM)。针对化工过程中高维的原始输入变量,其中有些变量与因变量毫不相关,若将这些变量直接用于建模,则会导致模型不准确;有些变量虽然与因变量相关,但相互之间存在冗余问题,若将这些变量直接用于建模,则会间接降低模型性能。因此提出对原始样本数据的粗筛选方式。MI-PCA-MI-RVM方法首先通过互信息分析,获得所有输入与输出变量之间的互信息量,并根据互信息量的概率密度分布,确定区分无关变量与相关变量的阈值,剔除无关输入变量。然后,针对剩余的输入变量,通过主成分-互信息分析挑选出与模型输出最相关的主成分作为模型输入。通过对二甲苯氧化反应中的4-CBA含量软测量模型的测试,结果表明剔除无关输入变量以及消除输入冗余后,MI-PCA-MI-RVM模型具有良好的鲁棒和预测性能。(3)针对径向基神经网络的结构优化问题,提出了基于偏互信息-最小二乘的隐含层单元挑选及其网络权值和阈值更新(Partial Mutual Information-Least Square Regression-Radial Basis Function Neural Network, PMI-LSR-RBFNN)。PMI-LSR-RBFNN方法首先通过改进的互信息分析法-偏互信息方法,挑选出合适隐含层单元,这些被挑选出的单元不仅与相互之间冗余最小,而且与输出变量的相关性最大。然后,通过最小二乘,对隐含层输出与输出层输出直接进行线性回归,更新了权值与阈值,建立RBFNN模型。在英威达氧化过程燃烧副反应建模中,与基于K均值、模糊C均值、K中心点和减法聚类的改进径向基网络相比,PMI-LSR-RBFNN网络结构简洁且模型性能更佳。通过Sammon非线性映射分析,由偏互信息分析挑选出的隐含层单元在空间位置上并不是均匀分布,但表现出更佳的模型性能。同时,基于建立的模型,进行各主要操作变量的灵敏度分析,其结果符合燃烧副反应过程的已知先验知识。(4)针对多层前馈神经网络的结构优化问题,提出了基于最小冗余最大相关-偏互信息聚类方法和最小二乘的隐含层单元挑选及其网络权值和阈值更新方法(MinimalRedundancy Maximal Relevance-Partial Mutual Information Clustering-Least Square Regression-Multi Layer Feed Forward Network, mPMIc-LSR-MLFN)当变量维数增加时偏互信息会消耗大量计算时间,且容易失去估计精度,因此提出了一种新颖的最小冗余最大相关-偏互信息聚类方法。由最小冗余最大相关性分析挑选出合适的隐含层单元作为初始聚类中心;再通过偏互信息量的计算,对所有隐含层单元进行聚类,并在各类中迭代更新该类中心,直到所有中心不再变化,从而寻找到最佳隐含层单元。最后通过最小二乘法线性回归更新输出层输入与隐含层输出之间的权值和阈值。在石脑油干点软测量模型的应用中,与基于K均值、减法等聚类的MLFN和三类改进极限学习机(OP-、OS-、B-ELM)相比,mPMIc-LSR-MLFN模型结构最为简洁,预测性能最为出色。
其他文献
为了对国外旅游目的地研究的成果和最新动态有一个清晰的了解,笔者检索了TourismManagement(《旅游管理》)近10年来的相关文献(不包括会议记录和书评)共32篇,对不同年份发表
建筑幕墙属于建筑物的不承重的外围护结构,在当前的建筑幕墙设计与施工过程中,普遍存在设计过程信息量大、设计周期长、可靠性差、重复劳动工作量大等问题,到目前为止,针对以上问
本论文是阐述中国石油呼和浩特石化公司在500万吨/年扩能改造项目建设过程中,新装置和旧装置并行阶段人力资源管理现状、存在的人力资源问题以及如何解决这些问题的案例论文。
医院日常办公管理是保证医院基本工作正常进行的基础,对于发挥医院在社会中的职能作用具有重要的意义。医院办公环境比企业办公环境更加复杂,医院办公事务种类和牵涉的部门都
师幼互动是幼儿园集体教学活动中的重要环节,良好的活动能够促进幼儿的健康成长。在幼儿园集体活动的师幼互动中,教师应该关注每一个幼儿的表现,使幼儿在关爱中获得身心全面
目的探讨老年急性阑尾炎患者的临床特征及外科治疗。方法将50例老年急性阑尾炎患者作为观察病例,按照1∶1比例选择50例非老年阑尾炎患者作为对照病例,比较2组患者相关指标上
<正>1993年的"河野谈话"与1982年表态纠正日本历史教科书谬误的"宫泽谈话"、1995年反思日本发动侵略战争责任的"村山谈话"一起,并称为战后日本"三大历史谈话"。它们都是日本
对于金字塔结构的经济后果主要存在两种对立的观点:利益侵占观和弥补制度缺失观。本文以2002-2007年的A股民营上市公司为研究对象,考虑民营上市公司实际控制人类型、所在地的
<正>近年来,随着社会的进步以及人们法律意识和自我保护意识的不断增强,医患纠纷越来越多[1]。医护患关系已发展成一个很微妙的关系,尤其是外科作为高风险的科室,患者病情紧
目的:比较痔上黏膜环切术(PPH)和经肛吻合直肠切除术(STARR)在直肠前突的治疗中的效果。方法:回顾性2009年1月-2010年1月间在我院确诊直肠前突并治疗的患者的病例资料,筛选81