论文部分内容阅读
随着计算机技术的发展和先进控制系统的应用,现代工业系统设备和结构日趋复杂,工业过程积累了大量的历史数据,这些数据包含过程的运行规律、操作者经验、产品质量和过程出现的问题等丰富的信息。如何在难以建立精确机理模型的情况下,从数据中获取有用信息,为生产过程的控制和决策提供依据,成为研究者和工业界广泛关注的问题。基于工业大数据的时间序列预测,是指利用采集的大量数据预测过程的某些关键性能指标,以便为工业过程监控、模型辨识、故障诊断和预测等提供支持,具有重要的理论意义和应用价值。随着工业过程规模和精细化程度不断提高,采集的大量数据具有复杂特性,包括数据的非完整性、强非线性、多变量的互相关性,以及过程的多模态等特性。工业大数据的这些复杂特性,对现有的数据驱动预测模型提出了挑战。为了解决这一问题,论文在数据驱动框架下,对具有上述复杂特性的工业时间序列预测问题进行研究。论文完成的研究工作主要包括:(1)针对工业大数据中具有强非线性特性的单变量序列,提出一种基于序列分解后特征提取的神经网络构造算法预测模型。利用特征提取算法构造最相关输入后,建立基于构造算法的神经网络模型。由于网络拓扑结构的变化会引起网络性能振荡的问题,对神经网络构造算法作进一步改进。模型输入的精简和模型结构复杂性的降低,使得可以在保证预测精度的同时,构建一个尽可能简洁的模型,提高网络性能。实验结果显示,综合考虑预测准确度和效率的情况下,所提出的模型能够有效地提高预测性能,且优于其他对比模型。(2)针对复杂的工业多变量时间序列预测问题,提出一种基于互信息特征选择的神经网络模型用于多变量时间序列预测。为了避免直接进行互信息概率密度估计,实现高维互信息计算,采用k近邻互信息对输入变量进行特征选择。由于k值的选择对互信息结果有较大的影响,论文提出一种基于置换检验和交叉验证的近邻数k的确定方法,实现对k近邻互信息方法的改进,以改善互信息用于相关性分析的性能。在此基础上,建立神经网络预测模型。实验结果表明,基于所提出的特征选择方法构建的神经网络模型能较好地捕捉多变量数据中的有用信息,从而为模型提供有效输入,提高模型的性能。(3)针对生产过程由于生产方案的变动或者产品类型的改变导致生产过程出现具有不同过程特性的多种模态问题,基于多阶段统计建模策略,提出一种基于高斯过程回归的多模型时间序列预测方法。该方法首先对数据中的不同模态进行辨识,采用高斯混合模型对数据进行模态划分,并判断样本属于某一模态的概率。在参数学习过程,采用在线期望最大化算法推导学习流程,实现聚类模型参数的在线更新;然后对不同模态数据建立局部高斯过程回归模型。由于预测模型参数选取对模型精度影响较大,引入基于差分进化的粒子群算法代替传统的随机梯度下降法优化高斯过程回归协方差矩阵参数。最后利用贝叶斯方法将局部高斯过程回归预测结果进行组合。实验结果表明,对数据模态的划分和对模型参数的优化能够有效地改善预测模型性能。为了验证实验显著优于对比模型,采用非参数假设检验方法对实验结果进行统计检验。(4)针对工业大数据中带有缺失值的非完整时间序列预测问题,提出一种基于多重填补方法和高斯过程回归模型的建模方法。在期望最大化学习框架下针对不完整数据集推导混合高斯模型的参数,描述含有不同缺失率的数据集的数据分布。基于多重填补方法生成多个完整数据集,并分别对每个新的数据集建立高斯过程回归模型。利用组合模型的思想,将多个模型的预测结果进行加权平均,从而对各个子模型的预测结果进行合理融合。为了验证所提出的方法的有效性,将该模型用于风电场风功率的预测。实验结果表明,在处理带有缺失数据的应用中,所提出的方法能够有效解决由缺失数据带来的不确定性和多变性。利用假设检验验证相比于其他已知模型,所提出的模型能够有效处理非完整时间序列预测问题。