论文部分内容阅读
函数型数据是以函数为表现形式的一种数据,其在现代数据处理和统计分析中占有重要地位。而高斯过程作为一种重要的贝叶斯机器学习方法,在建模过程中需要的参数较少且易收敛,适用的核函数种类较多,能够很好的处理维数高、样本小、非线性等问题。所以将高斯过程应用于函数型数据分析中可以起到很好的效果。气象数据中的日最高气温是一种比较典型的函数型数据,本文将基于高斯过程函数型数据模型,对多地区日最高气温进行分析并讨论不同的高斯过程模型的拟合和预测效果,从而验证本文改进模型在日最高气温预测中的精确度。本文的主体工作如下:第一章介绍日最高气温在内的函数型数据分析的研究背景和研究现状,以及高斯过程的基本概念。并给出基函数、数据预处理以及高斯过程回归的相关知识。第二章研究高斯过程函数型回归(GPFR)模型对多地区日最高气温的预测问题。本章基于高斯过程函数型回归的基础上,利用随机预测、外延预测和多步预测这三种不同预测方式,对10个城市夏季日最高气温进行分析及预测,并与常用的高斯过程回归和线性函数型回归(LFR)做比较。结果表明在不同预测方式下,GPFR模型预测误差都更小,精度更高,更适合日最高气温在内的函数型数据预测。第三章是对GPFR模型进一步进行改进,使GPFR模型变为带有固定效应的高斯过程函数型回归模型(eGPFR)。本章进一步引入气压、降雨量、地理位置三种气温预报因子,并利用eGPFR模型对10个城市夏季日最高气温进行分析和随机预测,并于GPFR模型和LFR模型做比较。结果表明eGPFR模型在各城市日最高气温的预测中,均方根误差明显低于GPFR模型和LFR模型的均方根误差,因此eGPFR模型能够在估计均值趋势时有更好的效果,并提高预测日最高气温的精度。第四章将函数型主成分分析方法运用于高斯过程回归模型中。本章针对日最高气温数据在城市和年份增加的情况下,数据维数增加,协方差结构更复杂的问题,提出了利用基于高斯过程函数型主成分分析方法,并且利用Nystrom方法简化协方差函数的计算,然后对日最高气温数据进行了相应的预测。第五章总体指出本文所提的模型和方法在包括日最高气温在内的气象类函数型数据应用中的优势,并给出进一步的展望。