论文部分内容阅读
近年来集群系统已成为分布式计算领域研究的热点。随着集群规模的不断扩大和集群的共享化,作业管理在集群高性能计算中发挥着越来越重要的作用。针对大规模集群中的单节点瓶颈问题和共享集群中的作业资源需求复杂的特点,本文提出了可扩展的集群作业管理系统的设计模式:在系统结构层面,应采用集中式作业请求处理、层次化节点信息管理,而非请求处理和节点管理均采用集中式的作业管理。本文还提出资源信息分级、汇报制和查询制结合获取节点资源信息、作业流控制等降低管理节点通信处理开销的设计指导原则以避免管理节点瓶颈。
作业调度问题是影响集群作业管理系统性能的关键因素,针对共享集群的作业特点,本文提出并实现了基于内存和CPU利用率等计算资源需求,而非作业执行时间进行分时分区共享的作业调度策略和作业预填策略,并讨论了作业调度中应采用的资源参数问题。
最后,本文设计并实现了集群作业管理系统LilyJM。该系统遵循POSIX1003.2标准,实现了面向作业的CPU利用率和内存需求的作业调度策略,以及根据作业资源需求进行作业实际CPU利用率控制的机制。通过与OpenPBS类系统的对比实验,LilyJM系统在总吞吐率、平均响应时间、平均周转时间上的性能表现均优于OpenPBS。