论文部分内容阅读
网格是继传统互联网、Web之后的“第三个信息技术大浪潮”,网格以提供高质量的服务为中心、以资源共享任务协同为目的,旨在为科学研究、工业制造、日常生活等构建可信赖的高品质服务基础设施。网格的可信赖性体现在系统能够为网格用户提供可靠的服务,这一问题主要从三个方面来解决:高效地调度用户任务请求、准确地检测运行错误以及对错误采取有效的处理措施。 网格服务请求通常是科学研究中的大型应用,其中以数据密集应用的处理最具挑战性。数据密集型应用不仅要处理各种计算资源,对于网络资源以及存储资源的充分使用也会对最终任务的运行效率有很大影响。通过提出一种兼顾数据处理以及计算处理、保证任务QoS的调度模型来解决数据密集型应用的调度。该模型包括两个方面:满足截至期限的任务调度以及基于数据可靠性的副本管理。其中,满足任务截至期限的任务调度模型充分考虑存储资源特性以及网络传输特点,动态、自适应地调整任务的调度参数。基于数据可靠性的副本管理模型通过一种服务评定能力的方式来计算单个副本的可靠性,然后根据用户提交的应用需要的数据可靠性获得需要创建的副本个数。按照上述的调度模型在模拟测试以及两种典型应用的评测中都可以看出本调度模型在数据密集型应用中较之其他方法效率上有明显的提高。 可信赖网格计算的一个重要研究内容就是系统的容错能力的研究,通过系统的容错来保证可靠的、不间断的服务,错误检测是容错分布式系统的基础部件,通过提出一套自适应的网格错误检测服务ALTER来有效检测网格对象的状态。ALTER服务首先通过按照错误检测服务质量需求以及网络状况在单进程间动态调整检测参数来保证单进程间错误检测的服务质量,然后采用层次式方式组织错误检测器,并且通过索引服务器来辅助管理层次结构。在最后的性能评测中可以看出ALTER在错误检测时间、准确性以及可扩展性方面都比同类算法有很大提高。 网格容错能力的另外一个重要方面是对于错误的处理,而网格由于其资源分布的特殊性,导致对于错误处理与传统的分布式系统中错误处理在技术和策略上有很大的区别。通过提供一种通用的网格错误处理框架DRIC来处理网格上应用层的错误,本错误处理框架是建立在错误检测服务ALTER的基础之上。DRIC首先给出了各种常用的分布式系统中常见的错误处理方法的执行代价与执行效率,通过熵策略来制定任务的错误处理策略,该策略综合考虑了错误处理的执行代价与错误处理的执行效率,然后通过策略引擎来执行这一策略从而达到错误处理的目的。 在可信赖网格计算中为了保证网格计算的可信赖性,在系统部署前对网格的可靠性进行分析对于最终系统的部署、规划非常重要,在系统部署完毕对网格系统的可靠性能够做具体的实验评测从而进一步提高网格可靠性是可靠网格计算的良性循环流程。通过软硬件分离的方式来分析网格系统的可靠性,而网格系统的可靠性直接体现是网格上应用程序的可靠性。首先从硬件可靠性的角度,采用RBD模型来分析应用程序的可靠性,然后通过采用Use Case分析的方法,由Use Case分析的结果构建CDG图,根据CDG图来分析网格平台软件各组件与应用可靠性的关系。通过采用错误注入的方式对ChinaGrid图像处理网格容器可靠性的进行评测,其他网格软件组件可以采用类似的方法、不同的实现来进行可靠性评测。