分布式容错检查点算法研究与软件设计

来源 :山东大学 | 被引量 : 0次 | 上传用户:xgdiban
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
计算机网络技术的迅猛发展,分布式系统应用的不断拓展,分布式应用对高可靠性和可用性的要求越来越迫切。一个高可用性的系统要求在任何情况下服务不会被中断并且能够提供正确的服务,因此,分布式系统的容错问题是目前分布式系统研究的热点和难点,同时也是一个富有挑战性的课题。由于分布式系统在地理区域分布的广泛性,使得整个系统无法获得一个统一的时钟,而这又是直接影响分布式系统性能的关键因素,这就给分布式系统的容错问题带来了巨大的挑战。本文以2008年申请的山东省自然科学基金项目为背景,以分布式系统容错检查点算法作为出发点,针对丰富的检查点设置策略和提高资源利用率和系统效率为目的,对分布式系统容错问题和检查点算法进行了深入的探索和研究。本文研究了分布式系统容错检查点的设置和恢复算法,容错检查点间隔设置的理论,方法和技术,探索将所研究的分布式容错检查点算法与实际的分布式容错软件相结合,提高分布式系统的可用性和算法的实用性,本文主要完成了如下工作:1.构造分布容错系统的层次结构模型并列举了该模型的主要特点,容错的概念和相关的定理,分析了分布式系统性能特性,并结合该性能提出分布式系统进程模型。根据进程通信模型进一步指出,分布式容错系统由于时钟自适应特性而出现的检查点通信问题,如孤儿报文、中途消息等。提出了如何消除这些非全局一致的检查点状态的条件和定理,给出了评价检查点算法性能优劣的指标,即算法的时间开销和空间开销。2.根据分布式容错检查点算法的原理,分析了同步检查点算法的设置,异步检查点设置和消息日志检查点算法的各自特点,深入理解了影响检查点算法性能的瓶颈因素,即算法设计较复杂,实用性较差,时空开销较大,对分布式系统性能的影响大。在此基础上,参与研究了一种改进的分布式容错检查的算法,矩阵一致检查点算法,该算法从容错的基本要素即进程间通信出发,以进程间通信的数目作为设计算法的核心思想,降低了算法的时空开销,提高了系统的整体性能,经演绎推理证明和实验验证,该检查点算法简洁有效。3.通过研究检查点算法的性能瓶颈,我们发现检查点间隔的设置和选取对于检查点算法的性能同样产生着重要的影响。在检查点间隔的设置算法中,尽量减少检查点机制所产生的时空开销对提高计算效率具有重要意义。本文在已有的动态检查点间隔设置的基础上,提出了一种新的动态检查点间隔的设置方法一随机时间序列分析方法的Markov动态检查点间隔设置,该算法既可以减少回滚重复计算时间,又可以降低检查点保存进程状态所需的存储空间。经Spin仿真实验结果表明,该动态检查点间隔算法与固定检查点算法和一般的动态检查点算法相比,平均检查点间隔开销率R(t)比传统方法平均减少1.019%。4.分布式容错软件平台的设计技术。由于分布式系统的跨平台特性,本文分别设计了Windows和Linux操作系统平台下的容错软件模块的设计方式,前者主要采用了Detour Windows API技术,通过在系统的进程中插入具有容错功能的线程来实现在Windows系统下的容错功能,并能根据保存的文件进行容错的恢复。后者主要采用了Linux LKM模块技术,在Linux内核中插入一个具有容错功能的LKM模块,进行Linux系统下检查点设置和容错恢复,该容错软件为分布式系统的可用性提供了有效的支持,具有一定的实际应用价值。
其他文献
随着互联网技术的飞速发展,不同领域网络信息的种类和组成形式愈加复杂,每个网站节点都具有复杂的分类体系结构,并且包含丰富的文本信息,如何将大量的文本信息标注到对应正确
人脸识别由于具有自然性和友好性的特点,因此成为生物特征识别领域中的一个热点研究问题。通过采用人脸识别技术,可以准确的识别出人的身份信息,进而保证信息安全。由于这个
服务计算(SOC)和服务构架(SOA)的兴起和发展,促使通过实现服务协同来构建虚拟组织(Vos, Virtual Organizations),成为革新Internet计算环境下应用软件系统的主流方式。然而,
本文研究了有时间间隔的事件的挖掘问题。假设原始数据库由事件序列集构成,其中事件发生在时间间隔内,我们的目的是挖掘出数据库中频繁发生的间隔事件间的时间关联规则。之所以
中医有“望、闻、问、切”四诊,是传统文化的精华,具有简单、方便、非侵入等优点,但比较主观,缺乏客观诊断标准。随着信息科技领域的不断发展,为中医的数字化、科学化、现代
作为一门无监督学习技术,聚类广泛应用在很多领域中,包括数据压缩,文件检索,人工智能,临床图像和微阵列分析等多方面。随着信息技术的飞速发展,在这些领域中积累的数据量将不
随着经济的发展,人们越来越关注健康问题,网络作为现代化信息提供的主要来源,可以让人们快速的获取健康知识,但是随着网络信息成爆炸式增长,如何快速准确地选择自己需要的信
无线传感网络的覆盖控制是无线传感器网络的一个基本问题,它反映了传感器网络所能提供的“感知”服务质量。在野外、敌对等环境中布置无线传感器网络的时候,往往只能采用空投
随着互联网时代的到来,智能手机在世界上的普及率也越来越高,而Android智能手机操作系统则凭借其优良的性能,获得了巨大的市场份额。可随着智能手机的发展,越来越多的手机恶
美国国防部的可信计算机系统评估标准TESEC认为访问控制是评价信息系统安全的主要指标。访问控制根据已定的系统安全策略的要求,对每一个用户提出的的访问请求做出是否允许的