论文部分内容阅读
数据挖掘技术是一种基于数据信息提取的综合技术,它建立在数据库的基础之上,不依赖于对象的先验知识,避免了由于先验知识带来的误差。数据挖掘技术起源于商业的应用,在工业领域特别是化工领域的应用还较少,本课题针对化工过程的数据特点研究数据挖掘技术在化工聚合反应过程软测量建模中的应用。针对单一支持向量机模型不能精确地对聚合反应过程质量指标进行估计的问题,提出了一种基于样本特性的分类树组合支持向量机模型,以提高聚合物平均分子量的估计精度。利用数据样本特性进行分类,避免了分类结果的多样化。聚合物平均分子量软测量建模的仿真表明,该组合支持向量机(SVM)软测量模型具有较高的估计精度。数据分类带来的一个问题就是相邻类别间的信息干扰比较大,使得子模型的估计精度提高有限,对跳变较大的数据无法正确地进行跟踪。而线性判别分析(Linear Discriminant Analysis,LDA)是一种用于扩大类别间的距离的有效方法,能有效地降低类别间的信息干扰,提高子模型的估计能力。将该方法应用于聚合物软测量模型的建模中,仿真结果表明该组合模型不仅能降低类别间的信息干扰,提高子模型的估计精度,对突变数据也有很好的跟踪效果。为进一步提高数据模型的估计精度,本文针对经常使用的聚类算法数据信息不完备的问题提出一种基于贝叶斯分类器的组合模型的建立方法。该方法是基于数据的输入和输出的一种分类方法,利用数据的输出进行类别划分,根据样本的类别概率判断样本的类别属性。将贝叶斯分类器与LDA相结合,不仅保持了数据信息的完备性,也在很大程度上降低了类别间的信息干扰。仿真表明,该组合模型具有较高的估计精度和较好的跟踪能力,具有一定的实用性。本文最后针对SVM对所有样本赋予同样的惩罚系数,不能突出一些重要样本的问题,提出了一种基于AdaBoosting算法的组合SVM模型。该方法是建立在贝叶斯分析的基础上,利用贝叶斯计算得到的样本概率初始化惩罚系数,利用损失函数的回归更新惩罚权重,使得SVM训练模型有“强”,“弱”之分,突出一些重要样本的作用,以提高模型的估计精度和泛化能力。仿真表明,依据这样的方法建立的组合模型在很大程度上提高了数据模型的估计能力和泛化能力。