论文部分内容阅读
高可靠性的分布式计算系统是分布式系统的一个主要研究领域,而检查点与恢复技术是提高分布式系统可靠性常用的主要技术.在分布式系统所采用的各种检查点技术中,协同检查点技术由于具有简单、恢复费用小的特点而成为一种常用的检查点技术.本文针对分布式系统检查点技术的特点,对协同分布式检查点算法的一致性与减少协同检查点算法费用的方法进行了深入的研究,解决了协同检查点算法的一致性问题,提出了基于依赖关系与基于计时的协同检查点算法,并在此基础上提出了适合移动环境的检查点算法,减少了协同检查点算法的费用.针对基于依赖关系的协同检查点技术的现状及存在的问题,本文提出了计算检查点的概念,并将两种减少基于依赖关系的协同检查点算法费用的方法相结合,提出了一个基于依赖关系的非阻塞的费用更小的协同检查点算法.该算法利用计算检查点保存了进程的当前状态却不需要传播采取检查点的要求,有效地预防了由于进程未来可能出现的运行状态而导致系统可能出现的不一致.针对基于时钟的协同检查点技术的现状及存在的问题,本文首次指出了基于时钟类自适应检查点算法中存在的潜在不一致问题.通过在基于计时的协同检查点算法中引入两段检查点技术,并将基于时钟协同与通信引起的检查点技术相结合,提出了不需要阻塞检查点后的敏感时间段的检查点算法,该算法有效地解决了基于计时的协同检查点协议中潜在的不一致问题.该协同检查点算法在确保检查点协议一致的前提下减少了检查点算法的费用.本文通过计时器实现了检查点的同步,很好地解决了应用程序长时间运行后计时器偏移对时钟算法的影响,并且不必协同各个节点独立的时钟.本文在研究有线网络分布式协同检查点算法的基础上,针对移动分布式计算环境中存在的诸如系统的通信带宽低、存储空间有限、节点的可移动性、移动节点主动从网络断开以及移动节点的支持能量有限等特点,将基于计时的有线网络协同检查点算法移植到移动计算环境中,提出了适合于移动计算环境的小费用的两层一致的协同检查点算法,很好地解决了自适应移动检查点算法中的潜在不一致性问题.性能分析与模拟实验表明,本文提出的适合于移动计算环境的检查点算法在算法的执行费用方面优于已有的同类算法.本文将该移动检查点算法应用于可穿戴计算机系统中,提高了可穿戴计算机系统的可靠性.