论文部分内容阅读
云计算通过将硬件资源抽象成虚拟资源,为用户提供可弹性伸缩的按需获取的服务。随着越来越多的应用与服务部署在云端,用户对云计算可靠性的要求越来越高,且云数据中心的资源虚拟化、快速弹性架构和应用托管等复杂特性导致云数据中心容易出现异常和故障。因此,对可靠性的要求越来越高。如何保障云数据中心的可靠性,提高云计算系统提供无故障服务的能力成为亟待解决的问题。
本文主要针对云数据中心计算资源的可靠性保障技术进行了研究,论文主要研究工作如下:(1)针对现有云数据中心主机故障检测效率及检测准确率较低,且故障信息较难获取等问题,对主机资源数据进行了深入的分析,提取当前负载模式下代表系统运行状态的关键资源度量进行监测,提出了基于改进一类支持向量机的云数据中心主机故障检测模型。该模型采用半监督的方法,使用正类样本就能够检测异常,根据样本到模型分类超平面的距离设计了一种故障识别方法。为了提高模型检测故障的能力,根据样本的异常度设计了一种样本权重分配策略,并使用基于 OpenStack 的云平台对提出的模型进行了对比实验验证;(2)根据主机故障检测的结果,分析数据中心可用服务器的故障特征以及资源信息,为了指导故障服务器上的虚拟机迁移到可靠性较高的服务器上,设计了一种迁移效用模型和目标服务器选择策略。为了保障迁移后的虚拟机自身可靠性以及服务等级协议SLA的约定,以故障主机上的虚拟机为博弈参与方,提出了基于完全信息动态博弈的虚拟机迁移算法,为待迁移虚拟机寻找尽可能使自身可靠性达到最高的服务器。通过基于CloudSim的仿真实验对提出的迁移算法进行了对比实验验证。
论文最后设计并初步实现了一个面向云数据中心计算资源的可靠性保障软件,该软件包括资源监控模块,故障分析模块与迁移管理模块。测试实验结果表明,本文提出的模型与算法,能够根据物理服务器的资源信息及时、准确地对故障情况做出判断,并对虚拟机进行迁移,使得系统能快速恢复正常运行,能够保证较高的可靠性。
本文主要针对云数据中心计算资源的可靠性保障技术进行了研究,论文主要研究工作如下:(1)针对现有云数据中心主机故障检测效率及检测准确率较低,且故障信息较难获取等问题,对主机资源数据进行了深入的分析,提取当前负载模式下代表系统运行状态的关键资源度量进行监测,提出了基于改进一类支持向量机的云数据中心主机故障检测模型。该模型采用半监督的方法,使用正类样本就能够检测异常,根据样本到模型分类超平面的距离设计了一种故障识别方法。为了提高模型检测故障的能力,根据样本的异常度设计了一种样本权重分配策略,并使用基于 OpenStack 的云平台对提出的模型进行了对比实验验证;(2)根据主机故障检测的结果,分析数据中心可用服务器的故障特征以及资源信息,为了指导故障服务器上的虚拟机迁移到可靠性较高的服务器上,设计了一种迁移效用模型和目标服务器选择策略。为了保障迁移后的虚拟机自身可靠性以及服务等级协议SLA的约定,以故障主机上的虚拟机为博弈参与方,提出了基于完全信息动态博弈的虚拟机迁移算法,为待迁移虚拟机寻找尽可能使自身可靠性达到最高的服务器。通过基于CloudSim的仿真实验对提出的迁移算法进行了对比实验验证。
论文最后设计并初步实现了一个面向云数据中心计算资源的可靠性保障软件,该软件包括资源监控模块,故障分析模块与迁移管理模块。测试实验结果表明,本文提出的模型与算法,能够根据物理服务器的资源信息及时、准确地对故障情况做出判断,并对虚拟机进行迁移,使得系统能快速恢复正常运行,能够保证较高的可靠性。