全面高效的HPCS监控系统的设计与实现

来源 :中国科学院计算机网络信息中心 | 被引量 : 0次 | 上传用户:coophui
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着高性能计算应用(HPC)的复杂化和大型化,高性能计算机系统(HPCS)的硬件规模、节点数量也呈直线上升趋势。优秀的监控软件可以准确地了解HPCS中所有资源的当前状态和使用状况,协助进行资源的分配和调度,预测和定位潜在的故障,提高HPCS的运行效率、可靠性可用性。本文旨在研究HPCS监控系统的实现和改进技术,重点设计了一个全面高效的HPCS监控体系Clumon+,并在超级计算中心联想深腾6800实现了应用程序监控,同时收集系统的性能、作业信息等并以Web方式显示,来指导系统管理工作,提高系统资源的利用率,保障点资源长期稳定、可靠、高效地对外提供计算服务,从而建立良好的面向科学研究的超级计算服务环境。主要工作包括:   ⑴对大量现有的高性能系统监控软,如Ganglia、Supermon、Clumon、Parmon、Hawkeye、Lemon的功能、性能、体系结构、效率等参数进行比较研究和分析,总结出了许多重要HPCS监控技术,如性能、系统、应用程序、进程监控的区别和统一,以及监控实现过程中的数据收集、合并、显示阶段的先进方法和工具。   ⑵提出全面高效的监控系统这一设想,并测试比较了两种应用程序监控策略Ganglia+Ganglia Job Monarch和Clumon,提出集性能、应用程序、系统、进程一体的监控策略,设计了一种可以以便利的方式查看LSF和OpenPBS作业管理系统中作业、队列及节点作业分配等信息的理想化全面的监控软件Clumon+。   ⑶针对深腾6800目前监控功能和性能需求,用perl和shell分别设计实现了Bmonitor-lsf、my_bhosts、my_lsload和my_bqueues脚本程序,实现了基于LSF的应用程序监控,并把监控结果用html页面显示出来。并在稳定性、监控参数显示方式、响应速度、更新方式、占用资源及操作便利性方面进行了比较分析。   ⑷考虑到HPCS监控软件本身的资源消耗,文章对如何提高监控程序的运行效率进行研究测试,提出一系列减少监控数据的收集及增加传输速度的方法。
其他文献
近年来,随着软件在社会生活中的作用越来越重要,软件的正确性也越来越受到人们的重视。然而如何保证软件的正确性却是一个一直都没有得到很好解决的问题。在上世纪六七十年代人
作为e-learning许多应用之一的智能教学系统,是现代教育技术的一个重要研究领域。随着网络和多媒体课件的发展,学习资源也越来越丰富,这样给学习者的学习选择提供了很大的灵活性
期刊
说到干部,不需要引经据典,不必请专家答疑解惑,大家都知道是什么职业。用老百姓的话来说,是吃皇粮的,坐小轿车的,手里有大印的,主席台上讲话的,是为群众办事的,这都没错。不
Web的永久保存具有重要意义,国际范围内许多组织和政府机构相继建立了大型的历史网页存档系统来永久保存网页,如Internet Archive和Web InfoMal。而如何对蕴含在海量网页存档系
随着计算机技术的不断发展和日益普及,特别是数据库技术的广泛应用,各行各业都产生了大量的数据,而如何从这些海量数据中寻找有价值的信息则成为了一项非常艰巨的任务。数据挖掘
学位
江苏省涟水县余圩办事处朱前村有4个建于上世纪80年代的电灌站,设备均已老化,若不及时维修,将直接影响农田灌溉用水。村“两委”前不久将“电灌站老化了怎么办”作为问题提出
2005年4月5日下午,全国31个省区市纪检监察机关的审理室主任、分管领导聚集浙江省杭州市下城区,在区政府大楼的会议室观摩了一场党员违纪案件的审理。4月5日下午3时10分,280
1股权分置改革顺利推进中国证监会主席尚福林在不同场合多次表态:“年内基本完成股权分置改革”。这句话如今将成为事实。 1 Equity Reform Smoothly Promote CSB Chairman
随着计算机应用技术的不断发展,软件复用技术逐渐受到人们的重视。软件复用是将已有软件的各种有关知识用于建立新的软件,以缩减软件开发和维护的花费。软件复用是提高软件生产