论文部分内容阅读
按需服务是云计算模式的特色,能够大大降低云平台用户的计算成本。弹性资源管理是云平台实现按需服务的重要手段,而基于负载预测的自动伸缩技术是实现弹性资源管理的重要技术,负载预测的准确性成为影响弹性资源管理性能的关键。随着云平台规模的迅速扩大,计算资源的需求量、种类快速增长,如何对大量的、复杂多样的负载数据建立有效的预测模型,成为大规模云平台负载预测亟待解决的问题。为此,本文从利用任务负载序列间结构化信息,以及同一个任务的多维负载序列间结构化信息入手,构建多种负载联合预测模型,并采用Google负载数据集对所提模型进行验证。主要研究工作包括:
(1)针对云平台大量任务同时到达、负载变化模式多样的问题,提出基于序列间结构化信息的云负载联合预测方法,从负载序列中获取有价值的变化趋势信息,并实现多个负载序列同时有效预测。首先,对存在的周期性和无规则变化负载,分别提出基于序列外形和基于模型的两种聚类策略,从几何形态和内部特征两个方面挖掘相似序列间的结构化信息;然后,将获得的序列聚类输入核范数正则化多任务学习模型(Trace-norm regularization multi-task learning,TNR-MTL),利用其结构化输出特性,实现多个负载的同时、联合预测。实验结果表明,对聚类过程分阶段分析,从预测效果和同一聚类中任务特征两个角度验证了所提聚类策略的有效性;对于不同变化模式的负载,所提方法的时间性能和预测准确度均优于常用的负载预测方法。
(2)针对负载预测过程中序列间时序相关性未充分利用的问题,提出基于时序相关性的云平台多负载序列联合预测方法,利用负载的时序特征和空间特征相关性,全面刻画负载序列变化趋势,提高预测准确度。首先,利用深度学习模型长短时记忆网络(Long short-term memory,LSTM)提取时序特征,将原始空间的负载特征表示变换到时序特征空间;然后,采用层次聚类法对提取的负载时序特征聚类,获得特征空间上相似的负载序列;最后,在所得聚类结果的基础上,构建TNR-MTL模型,挖掘和利用相似负载序列间的共享领域知识,实现多个负载序列的联合预测。实验结果表明,时序特征聚类可有效提取负载序列的全局时序特征,降低原始序列的噪声,获得特征上相似的序列;和常用的负载预测方法比,所提方法对不同变化规律的负载序列都具有更精确的预测效果。
(3)针对云平台中存在大量运行周期较短任务的负载预测问题,提出一种多变量负载序列结构化预测方法,依据同一任务运行中消耗的多种资源内在相关特点,挖掘多维负载序列的相关信息,实现小样本序列的预测。首先,为获取相关性强的负载类型,采用最大互信息系数(Maximal information coefficient,MIC)和信息熵进行负载类型的度量选择;然后,将相关负载序列同时输入到TNR-MTL模型,实现结构化信息的挖掘,并完成多种负载的同步预测。实验结果表明,所提方法获得的相关负载序列类型可明显增加模型信息量;同时,对预测模型的决策依据进行解释性分析,可视化每种变量对预测模型的贡献度;对比实验表明,所提预测方法在时间性能和预测精度上均优于常用的预测方法。
(1)针对云平台大量任务同时到达、负载变化模式多样的问题,提出基于序列间结构化信息的云负载联合预测方法,从负载序列中获取有价值的变化趋势信息,并实现多个负载序列同时有效预测。首先,对存在的周期性和无规则变化负载,分别提出基于序列外形和基于模型的两种聚类策略,从几何形态和内部特征两个方面挖掘相似序列间的结构化信息;然后,将获得的序列聚类输入核范数正则化多任务学习模型(Trace-norm regularization multi-task learning,TNR-MTL),利用其结构化输出特性,实现多个负载的同时、联合预测。实验结果表明,对聚类过程分阶段分析,从预测效果和同一聚类中任务特征两个角度验证了所提聚类策略的有效性;对于不同变化模式的负载,所提方法的时间性能和预测准确度均优于常用的负载预测方法。
(2)针对负载预测过程中序列间时序相关性未充分利用的问题,提出基于时序相关性的云平台多负载序列联合预测方法,利用负载的时序特征和空间特征相关性,全面刻画负载序列变化趋势,提高预测准确度。首先,利用深度学习模型长短时记忆网络(Long short-term memory,LSTM)提取时序特征,将原始空间的负载特征表示变换到时序特征空间;然后,采用层次聚类法对提取的负载时序特征聚类,获得特征空间上相似的负载序列;最后,在所得聚类结果的基础上,构建TNR-MTL模型,挖掘和利用相似负载序列间的共享领域知识,实现多个负载序列的联合预测。实验结果表明,时序特征聚类可有效提取负载序列的全局时序特征,降低原始序列的噪声,获得特征上相似的序列;和常用的负载预测方法比,所提方法对不同变化规律的负载序列都具有更精确的预测效果。
(3)针对云平台中存在大量运行周期较短任务的负载预测问题,提出一种多变量负载序列结构化预测方法,依据同一任务运行中消耗的多种资源内在相关特点,挖掘多维负载序列的相关信息,实现小样本序列的预测。首先,为获取相关性强的负载类型,采用最大互信息系数(Maximal information coefficient,MIC)和信息熵进行负载类型的度量选择;然后,将相关负载序列同时输入到TNR-MTL模型,实现结构化信息的挖掘,并完成多种负载的同步预测。实验结果表明,所提方法获得的相关负载序列类型可明显增加模型信息量;同时,对预测模型的决策依据进行解释性分析,可视化每种变量对预测模型的贡献度;对比实验表明,所提预测方法在时间性能和预测精度上均优于常用的预测方法。