【摘 要】
:
随着机群系统规模的扩大,可靠性问题已成为制约机群系统应用的重要障碍.目前,针对机群系统可靠性的相关研究主要分为两类.一类以部件冗余为基础,以提供不间断服务为目的的高
论文部分内容阅读
随着机群系统规模的扩大,可靠性问题已成为制约机群系统应用的重要障碍.目前,针对机群系统可靠性的相关研究主要分为两类.一类以部件冗余为基础,以提供不间断服务为目的的高可用技术.另一类引入预警机制,及时发现并定位系统中的隐患,并在系统崩溃之前进行主动的维护,从而避免无计划停机带来的巨大开销,相对于高可用系统的失效后被动修复方式,相关研究将该方法称为主动方式的故障管理机制.
根据可靠性理论的论述,系统的失效机理可描述为:组成系统的软件与硬件,在开发与设计阶段不可避免存在缺陷(faults);这些缺陷在系统的运行过程中被"激活",使系统在运行过程中出现一种不希望或不可接受的内部状态,即产生错误(error);大量的错误最终导致系统的失效(failure).那么,本文的"故障"同时具有"缺陷faults"和"错误error"两者的含义.相对于高可用系统中的"失效检测"(Failure Detection)机制,本文是为了在"失效"发生之前,提供一种故障的快速准确发现机制.在大规模机群系统中引入故障的主动检测机制,能够及时发现故障隐患并提高机群系统的可用性.
其他文献
E级高性能计算系统的节点规模将达到十万量级,高性能互连网络在性能、扩展性、成本和功耗等方面都面临严峻挑战。在成本和功耗约束条件下,单一追求性能最优的设计方法不再适用,
面对日益复杂的设计要求和有限的设计时间,如何有效地进行性能分析评估以指导完成SoC的设计,是摆在每一位SoC设计人员面前的问题.仅仅依赖直觉,经验和一些基础规则来完成SoC
地理信息系统(GIS)是人们将计算机引入地理相关学科后出现的一项新的技术。随着计算机技术的发展与普及,GIS技术也逐渐成熟。一方面,利用二维的图形图像描述与分析现实世界已经
基于视频的人体运动分析和理解是近年来计算机视觉十分活跃的一个研究方向,不仅具有重要的学术研究意义,而且有着广阔的应用前景.人体运动分析技术在智能视觉监控、高级人机
无线传感器网络是由大量静止或移动的传感器节点以自组织多跳的方式构成的网络,其目的是协作地感知、采集、处理和传输网络覆盖区域内感知对象的监测信息。传感器网络具有分布
利用计算机通过某些方法自动地从海量的网络信息中抽取出我们感兴趣的有价值的形式化的知识,即文本挖掘(Text Mining),已成为人们迫切需求的一项技术,而且已经成为人工智能研
进入信息化时代后,企业间的合作方式发生了很大变化,其中一种重要的方式就是“供应链合作”方式。一个供应链中可能涉及到相当多的企业,因此,“供应链合作”方式的成功与否取决于
当前,恶意代码给互联网带来了严重的威胁,同时全面向政治、经济等领域渗透,甚至可以成为网络战的武器,因此研究恶意代码及其对抗技术具有重要意义。本文对恶意代码的机理进行了详
服装动画是角色动画的重要组成部分。利用服装动画技术,能够生成逼真的服装运动,使得虚拟角色整体具有非常细腻真实的动画效果。目前,服装动画技术在电影电视、游戏娱乐、虚拟现
随着互联网的蓬勃兴起,企业应用从传统的客户机/服务器模式开始面向互联网。作为企业级应用程序解决方案之一,J2EE被认为是当今可用于企业软件开发的最佳平台,J2EE简化了基于工