论文部分内容阅读
随着企业在信息化建设的不断投入,在运行中的信息系统数量越来越多,系统的规模也越来越大,且IT基础设施规模庞大、结构复杂、品牌众多,为实现信息资源合理配置、有效管理,确保系统安全可靠运行,提供优质服务,IT集中监控系统的建设成为企业信息化运维工作的重点工作之一。当前一些中小企业的IT运维手段主要靠系统、网络设备本身自带的管理工具进行运维管理,或者是运用一些开源的监控系统如zabbix、nagios、cacti来构建企业内部的监控平台。但随着企业内部办公网络的规模逐渐扩大,网络构建越来越复杂,这些开源系统在扩展性和性能上已经无法满足这些业务监控需求。基于以上状况,本文研究一个面向中小企业的通用IT监控平台,解决企业IT运维监控乏力的问题。 本文针对企业IT运维中经常碰到的问题,如服务器宕机、CPU跑高、网络闪断、应用系统崩溃、网站响应太慢,制定这些问题的监控策略,实现异常告警,最终形成一个通用的监控管理的解决方案。同时利用云计算易扩展、高性能、按需付费的特性,打造一个云端的SaaS监控平台。 本文首先介绍了平台的背景及意义,公有云的国内市场规模,企业IT监控系统的重要构成,IT监控的理论基础与相关技术。平台提供云端监控采集与客户自部署采集两种不同方式实现全方位的监测采集服务,主推agent监控模式。该组件具有小巧安全、易扩展、系统兼容性好的优点,开发者也可根据自己的业务需要定制开发监控插件。采用流式计算框架JStorm实现数据统计分析的实时性,比传统的数据存储查询方案响应更快速,也能够很好的满足未来云监控业务增长的扩展要求,满足今后百万级别的监控规模。