面向科学计算的用户级检查点系统设计与实现

来源 :中国科学院研究生院 中国科学院大学 | 被引量 : 0次 | 上传用户:fsdafdsfsdsdf
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着科学研究的不断发展,科学计算越来越依赖于大规模的计算机系统。随着计算机系统规模的不断增大,整个系统的可靠性也随之下降。深入研究高性能计算机系统的容错技术,提高系统可靠性和可用性已成为当前重要的研究问题。检查点技术通过保存和恢复程序的运行状态来实现容错,是极为有效的机群容错策略之一,但检查点映像文件的保存已成为制约检查点使用的重要因素。现有的系统级检查点实现很难解决检查点技术给存储系统带来的巨大压力。   本文在分析检查点技术的现状和系统常见故障的基础上,针对大规模科学计算的特点,以检查点低开销以及适应大规模科学应用的可扩展性和易用性为目标,提出了一种针对大规模科学计算应用的全自动化的用户级检查点系统。本文详细描述该系统的关键技术原理,原型系统的设计、实现与评测。本文的主要贡献为:   1)提出了针对科学模拟应用的以数据为中心的检查点技术,改变了以往以进程执行状态为中心的检查点实现思路。该技术在不改变应用编程模式的前提下,仅保存与应用直接相关的数据,可大幅减少检查点数据量并降低检查点数据冗余,从而减少检查点开销与存储空间开销。在基于有限元方法的多尺度材料科学模拟程序上进行测试,结果表明,与系统级实现相比,该方法减少检查点开销、延迟和存储开销分别为85%、75%和70%。   2)设计并实现了一个自动化的检查点系统DCR3,提供包括定时检查点操作、应用重启时检查点数据的透明迁移、自动故障检测与应用恢复、节点替换、映像文件管理等功能在内的自动化处理流程。在无人值守的情况下,该检查点系统能够在失效发生的几秒钟之内检测到失效,分析失效类型并及时恢复任务。对自动化故障处理流程的验证表明DCR3系统的故障检测与应用恢复是有效的。   3)提高了DCR3系统可扩展性,使得可以支持曙光6000机群系统上千节点规模并使用模拟测试方法验证了DCR3系统在上千节点的情况的通信效率。
其他文献
北邮东兴通信科技有限公司开发的网络实时视频监控系统,已实现网络实时监控的效果,满足了用户基本的监控需求。然而,在实际应用中,系统用户对于系统的功能提出了新的需求:录像
近年来,人们对汽车驾驶的易用性提出了更高的要求,环视技术也慢慢地应用到汽车上。通过汽车环视系统,可以得到汽车上方的鸟瞰图,为泊车和行驶提供了极大的便利。   汽车环
因特网的快速发展,已深入到了全世界的每一个角落,其包含的信息量呈爆炸式增长,比如网页、用户交换文档、RSS新闻等,由于这些数据很难以某种固定的结构化方式表达,所以这些信
近年来,移动互联网的日益繁荣,移动应用软件的数量迅速增多。Android平台成为移动应用最多、用户数量最大的平台之一。同时,面临的安全威胁也日益严重。应用软件容易被破解和
互联网(Internet)在过去10年间快速发展,服务计算、云计算、移动计算等新概念、新技术层出不穷。伴随Internet变革,Internet上最主流的应用形态--Web应用也发生了演化。富互
随着硬件和移动通信网络技术的高速发展,智能手机越来越普及。其中以iPhone和Android为代表的智能手机通过应用仓库为用户提供了数以万计的应用程序。一方面,如何从应用仓库的
随着互联网技术的飞速发展,用户对资源的需求日益增加,但传统的资源配置方式往往会产生资源浪费。近年来兴起的云计算由于其资源共享、弹性供给等优点,受到了广泛的关注和研究。
作为新型、可靠、实用的柔性交流输电系统FACTS(Flexible AC TransmisonSystem)装置,磁阀式可控电抗器(MCR:Magnetic Valve Controllable Reactor)的出现为高压、中高压、超高
Web服务协商是自动协商领域的一个重要研究方向,而云制造服务平台作为一个将制造资源和制造能力虚拟封装成服务进行分享的分布式云平台,其服务交易过程需要构建合理的服务协商
人机交互是人与机器之间进行沟通的桥梁,在普适计算领域占据着非常重要的位置。手势是人们日常生活中比较直接的交流方式之一,实现利用手势与计算机进行交互,可以使人机交互