机群容错技术研究

来源 :中国科学院计算技术研究所 | 被引量 : 0次 | 上传用户:wxcheng823
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
机群已经成为主流的并行计算机体系结构,但是随着机群系统规模的不断扩大,机群系统的可靠性却呈下降趋势.深入研究机群容错技术,提高机群系统的可靠性和可用性已经成为当前机群系统研究中的迫切任务.理想的机群容错技术应该继承机群的低成本、高性能、低开销、易扩展的特点,而现有的并行检查点等机群容错技术无法满足这一要求. 在回顾机群容错技术的现状和分析机群常见故障的特点的基础上,针对机群系统中的并行计算应用的需求,以降低检查点和恢复过程所带来的性能和存储开销,提高检查点和恢复过程的扩展性和灵活性为目标,本文提出了一种轻量级容错技术--故障时检查点,详细论述了其关键技术的原理,描述了其原型系统的设计和实现,并给出了其正确性测试和性能测试的实验结果.本文的主要工作和创新点体现在: 1.提出了基于远程直接内存访问技术的远程检查点机制.该技术利用远程直接内存访问的通信过程无需目标结点的CPU和操作系统参与的特点和机群高速通信系统的优异性能,在目标结点的操作系统拒绝服务等故障条件下能高效地切取应用状态. 2.设计并实现了用户级机群通信系统的检查点和恢复机制.该机制利用机群通信系统中的应答、重发和消息缓冲等通信可靠性保障机制,降低了并行检查点过程对维护通信系统全局一致性状态的要求,减少了进程的检查点和恢复过程的开销. 3.在用户机群通信系统的检查点和恢复机制的基础上,探索了机群通信协议如何对并行应用的故障时检查点和恢复操作提供支持,设计和实现了针对并行应用中单个进程的检查点的通信断点恢复机制. 4.设计并实现了支持故障时检查点的结点级容错机制,主要包括基于协处理器的结点故障检测技术和基于进程运行上下文切换的CPU寄存器状态保存技术,能够实现结点故障的快速检测并确保目标进程的状态在结点故障发生之后的完整性. 5.在以上技术的基础上,本文提出了故障时检查点和恢复的思想,并实现了其原型系统CTCKR.针对机群结点中的操作系统拒绝服务故障和性能故障,该技术实现了仅在故障被探测到之后,且仅针对故障结点中的进程,才执行检查点和恢复操作.该技术避免了以往的并行检查点系统需要定期、全局地执行检查点操作所带来的性能和存储开销,其开销与机群系统规模基本不相关,具有良好的可扩展性. 利用NPB、LINPACK等基准测试程序的评测实验表明,CTCKR在各项性能测试和基于故障注入的正确性测试中都很好地达到了设计目标,这充分表明故障时检查点是一种可行的轻量级机群容错技术.
其他文献
学位
随着人民生活水平的提高和对生活质量的追求,智能家居逐渐走进人民生活并得到迅速发展。其中一个关键技术,音视频监控越来越受正视。而嵌入式技术和无线网络技术的日臻成熟,
USB于1994年由Compaq、Intel、Microsoft和NEC等多家公司推出,凭借其即插即用、廉价、可选择的多种速度模式以及广泛的软硬件支持等特点,日益成为通用的串行总线接口.同时,随
在芯片的设计流程中,一般采用多种验证手段来确保芯片的正确性,包括功能验证,时序验证,测试验证等.其中最耗时的当推是功能验证,它主要是芯片流片之前,通过对芯片的软件模型
随着网络通信技术的发展和网络应用的普及,人们已经不再满足于单一的通信服务,经常可以看到人们利用Email,即时消息,IP电话,视频等多种通讯工具的共同工作来达到便捷的通信活动,人
学位
信息检索中的排序(Ranking)问题是指给定某个查询和一候选文档集,检索引擎计算每个文档和该查询的相关性,并根据相关性将文档列表返回给用户。排序学习(Learning to rank)已成
面对日益增加的网络带宽和负载,如何提高网络安全程序的性能是当前安全系统所面临的挑战.Peder Jungck等人在[JSO4]提到,网络带宽与当前处理器能力矛盾是这一问题的根本.因此
随着半导体工业的发展,微处理器的集成度和工作频率在迅速的提高.与此同时,微处理器芯片内部的时钟偏差问题也越来越严重,确保电路运作的正确变得越来越困难;此外微处理器与
下一代互联网络演进的一个重要趋势是IP网络将成为语音和视频等应用的主要承载.VoIP(Voice over IP)是一个重要的语音应用.由于语音传输的机制不同,VoIP有着传统电话无法比拟
随着网络带宽的飞速增长以及各种应用不断涌现,同时具有高性能和可编程能力的网络处理器,得到了越来越多的重视和应用.网络处理器通常采用多个可编程的处理引擎以及专门协处