基于Beowulf结构的南开之星高性能集群监测系统的研究

来源 :中国地质大学(武汉) | 被引量 : 0次 | 上传用户:dalu008
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
本文首先从集群系统的基本技术入手,介绍了Beowulf集群的基本体系结构,之后分析了南开之星集群的体系结构和关键技术,针对科学计算集群的特点,提出了科学计算集群性能监测系统的层次体系模型和分布式结构模型。在阐述完集群监测系统的功能后对于集群监测的关键技术,着重分析了基于Proc文件系统的节点监测技术、故障监测技术以及IP多播技术等三项关键技术。 然后,对南开之星集群监测系统的软件基础国外开放源码项目Ganglia的关键技术进行了深入的研究,其中重点研究了:gmond数据采集进程,具体分析了数据源信息、数据采集方式、采集流程、数据格式转换,到数据导出的全过程;对gmetad进程的原理、配置以及XML数据导出也做了详细的论述;用户如何利用graetric命令收集所需信息,并发送到多播通道;最后重点分析了rrd数据库的数据存储和利用rrdtool工具生成图形显示。   在以上研究的基础上,结合南开之星的硬件和软件的具体情况,对监测系统作出了以下的一些优化和完善:   1、解决ganglia进程引起系统负载过重。通过研究分析发现,为了保持监测数据的完整性,gmetad进程会对硬盘进行频繁的写操作,从而导致系统负载的上升。、利用Linux内核支持的tmpfs文件系统,将写硬盘操作改成对内存的写操作,试验结果表明系统的负载得到了有效地降低。   2、添加PBS作业显示。利用swig软件封装PBS的库函数接口(c语言接口)为python接口,一个每隔30秒执行(默认)一次的python脚本作为守护进程访问PBS_servet,得到队列作业信息后使用gmetric发送到多播地址.web服务器端的php代码对获取的xml数据信息进行解析,然后显示到页面上。 3、添加LSF作业显示。利用LSF软什自身提供API通过编写代码收集LSF的作业,再编写作业发送脚本,将收集到的信息发送多播通道,然后通过修改一部分PBS作业显示的php代码完成web页面的显示。 改进后监测系统经过一段K时间的运行表明,系统的负载从原米的0.8左右,下降到改进后的0.1左右,PBS和LsF作业正确显示,完成了监测系统对集群系统的从单个节点到整个系统再到系统运行作业的完整、全面和直观的监测。
其他文献
Clifford分析是上世纪70年代后发展成熟的高维数学理论,它在数字图像处理中的应用才刚刚起步。本文首先将Clifford代数应用于LUV模型的复杂背景彩色图像区域生长中,将“点”信
随着计算机与网络信息技术的飞速发展,被视作下一代互联网标准的网格技术的地位也越来越重要。网格技术的目标是消除资源孤岛,实现网络上所有分布资源的高层次的连通和共享。虽
随着信息技术和计算机技术的迅猛发展,人类进入了信息时代。网络教育是信息时代的必然产物,它使教育突破了时间和空间的限制,使人们可以随时随地的进行学习,最大限度利用教育资源
本文以高校校园网络系统的现状为背景,来探讨一个基于数字化校园分布式系统统一用户权限管理系统的设计与实现。全文结构如下: 第一章首先介绍了论文的选题背景及意义,根据用
随着互联网技术的飞速发展,文本数据大幅度地增长,如何利用计算机从大量复杂的文本中获取有用的信息,借助语义相关度计算是解决这一问题的途径之一。词语作为句子和文章的基础,其
随着国家信息化进程的发展,各政府部门也开始了政府部门电子化的过程。目前,我国政府的电子化进程已经处于世界中上等水平。 当今信息技术的发展,一方面给人们的生活带来了巨
本文结合基于关键点路径的地形跟踪系统的自身特点,以飞行物为模拟物体,研究实现基于关键点路径的地形跟踪系统所需的相关技术,并进行系统原型设计和技术实现。全文主要内容如下
本文对粒子群优化算法的产生、发展进行了介绍,讨论了多目标演化算法的相关重要策略,并分析了多目标粒子群优化的发展现状。在此基础上,借助多目标演化算法的相关策略,设计了两种
本文在分析考察传统的金融预测分析方法的基础上,提出了一套面向期货市场分析、预测和决策,针对实盘真实数据操作,由BP神经网络和ARIMA时间序列模型组合的系统应用模板。该系统
如何将测试工作量合理分配到软件模块以有效检测缺陷是软件开发组织面临的重要挑战。结构复杂性导向(SCA,structural-complexity-guided allocation)和缺陷预测模型导向(FPA,