告别“无知”BOSS

来源 :计算机世界 | 被引量 : 0次 | 上传用户:mxf542268673
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  运营商当前的业务运营支撑系统(BOSS)存在先天不足,既没有能力感知BOSS系统的运营状态,也没有能力预知故障的发生。3G时代,BOSS系统如何才能告别“无知”,先于用户发现问题,变被动为主动,提高运营商业务质量?
  
  3G的正式运营,带来了国内三大运营商(中国移动、中国联通、中国电信)之间白热化的竞争。用户的持有量是各运营商实力的一个重要衡量指标,而网络质量和业务能力则决定着运营商能否持有较多用户。对网络质量和业务能力的保障涉及到运营商内部多个部门以及工作环节,其中业务支撑是十分重要的一环:业务运营支撑系统(BOSS)故障会导致营业厅关门、客户投诉升级等重大问题的发生,严重影响公司业务的正常运营。BOSS系统如何实现对业务能力的保障?如何使运营商业务支撑运营工作全面提升?
  
  BOSS系统的先天不足
  
  当前运营商的BOSS系统普遍存在着先天不足:既没有能力感知BOSS系统的运营状态,也没有能力预知故障的发生。很多地方运营商的BOSS系统不同于传统的电信设备系统,并不具备电信级的能力标准,而是附加了很多具有中国特色、甚至各省特色的IT系统,在可靠性与可维护性上都与电信级产品相差甚远。这种先天不足主要体现在“可监控性差”上。各个运营商都经历过或正在经历着被动的BOSS维护模式三部曲:“客户投诉—发现故障—故障修复”。
  如何让BOSS运维人员能够快速发现、有效解决业务问题,全面了解业务运营系统的各种运营信息以及用户的感知呢?
  几大运营商都在千方百计寻求自身BOSS业务支撑运营能力的提升。以中国移动为例,中国移动集团公司曾经下发过相关业务技术规范,多家省移动公司都做过相关的尝试。其中,上海移动曾在BOSS系统改进和提升方面取得了一定的突破,其具体方式是:直接在BOSS系统中增加维护代码模式。这种做法的优点是时效性强,缺点是维护代码与BOSS系统捆绑过于密切,难以实现大范围普及。
  
  BOSS也能实现监控
  
  中国移动浙江公司在借鉴了上海移动BOSS改进模式的经验之后,经过为期二年的探索及验证,构建了探针式BOSS业务监控系统。探针式BOSS业务监控系统提出了“以BOSS业务监控为核心”的理念,采用“探针式提取、指标引导、建模驱动”的方式,打造一站式BOSS业务监控系统,既实现了对现有实际业务系统的有效监控,也满足了BOSS运营管理的需要。
  探针式BOSS业务监控系统由五层组成:数据采集层、业务建模层、数据聚集层、告警管控层、分析展示层。这五个不同的层次在运营商业务能力的提升和运营管理水平的提高上都起到了什么作用呢?
  一、数据采集层: 是整个监控系统的基础,用来提供核心的业务健康度建模和可用性建模所需要的平台、应用、业务等数据。
  系统数据采集共采用了三类探针:A式探针直接模拟BOSS前台业务操作,采集BOSS门户各种业务应用的可用状态; B式探针负责采集A式探针发起的前台业务所触发的BOSS后台数据操作日志统计值,以及BOSS后台系统运营状态,并将其发送业务监控系统; C式探针从BOSS接入交换机中全量采集BOSS交易记录,即第一时间采集到实际BOSS运营的状态。
  综上所述,这三类探针能够获取到从业务发起、业务处理、业务交易到业务完成全过程的用户能够感知到的所有业务数据,为从用户感知角度进行业务监控提供了坚实的基础。
  二、业务建模层: 是整个监控系统的核心,是将业务进行有形化管理、量化衡量的高效手段。该业务建模层中涵盖了几乎所有的BOSS管理资源要素,包括业务、应用、服务及其他平台类资源,这些信息都建立并实时更新于企业集中建设的符合ITIL标准的CMDB(配置资源数据库,其中每一子项便是一个CI配置资源项)中。基于CMDB中动态调整的实时CI项和相互关系,关联上能够反映业务当前状况的KPI指标,以结构化的模型框架为指导,建立完整的业务CI/KPI指标体系,绘制出以业务为中心的BOSS系统视图,全面展现其健康度和可用性。
  CI/KPI指标体系的建立是以业务为主线,按照“CI业务-应用-平台”的分层结构,针对每一层设定支撑域、运营域和服务域的指标分类标准,并在这些指标的基础上通过关系推导和加权计算创建业务健康度和可用性量化模型,将业务的层层嵌套、互相关联与后台软硬件平台之间的关系都量化出来,并综合为直观有效的业务运营状况指标; 作为监控系统的核心,业务建模层为告警管控层的预警和故障定位提供了衡量基础和分析逻辑,如果健康指标超出经验化阈值,业务预警可帮助维护人员将业务隐患消除于萌芽之中。
  CI/KPI模型的建立,成功地将传统监控系统的监控难点转变为亮点,通过对模型中父子业务间关系、业务与后台资源间关系的结构化梳理,多维度数据的采集计算,有效量化了业务健康度指标。同时,模型中所综合的业务可用性、业务办理量、后台资源使用情况等全方位信息,尤为适合公司管理人员了解业务通体运营情况。
  三、数据聚集层: 在这一层,系统将经过CI/KPI模型、按不同业务规则结构化之后的三类用户体验数据进行汇聚:业务监控数据(业务可用性、业务量、业务办理时长、业务的后台服务器负载情况等)、配置数据(从CMDB中定时同步配置项信息和配置关联信息),业务感性数据(业务量、积压量和投诉等信息),使得运维人员不仅能够从IT支撑视角掌握业务运行状况,还能直观了解到在当前业务运行情况之下客户层面的使用感知。
  
  采集层探针
  
  四、告警管控层: 本层提供基于预警模型的预警管理和追根溯源的告警定位处理。
  预警模型是基于对系统中超过二年的业务全方位数据基于运维经验的深入挖掘分析所得。当预警模型条件都满足的情况下,通过工单系统发出相关的预警工单,使运维人员及时处理,避免实际的业务中断。
  告警定位处理提供了基于逻辑拓扑的全路径故障资源定位和基于业务操作耗时细分的故障环节定位功能。通过对逻辑拓扑中Web、中间件和数据库层的全路径业务模拟,能将故障具体到集群中的某个服务器和某个应用端口; 通过包括网络耗时和后台耗时等的业务操作耗时细分,究竟是网络问题还是后台问题也就能清晰地展现在运维人员面前。
  探针式业务监控管理系统颠覆了传统监控系统的的监控视角,将原来自下而上评估业务状态和影响,变成了以结构化模型框架为指导,以对体系化的CI/KPI指标进行监控来了解业务状态、分析预警业务风险、定位业务故障。
  五、分析展示层: 以三维立体业务全景视图的方式,向运维人员直观方便地展现当前业务运营状况,可一站视查看业务、逻辑、物理三个层面的运营特征。
  在每一层的具体业务、设备的展示上,又把性能数据、告警数据和配置信息同时展现,实现了真正的业务三维立体展现。丰富的三维立体业务监控视图能够更为有机地监控管理业务及系统平台数据,大幅度提升运维管控效率的同时,极大地方便各类人员查看操作。探入式BOSS运营监控实现了一站式的BOSS系统监、管、控。
  丰富的业务三维立体展现和钻取方式的层层深入分析,降低了运维人员分析业务与支撑之间的关系难度,从而不断改进系统支撑短板,提高公司总体的业务支撑服务水平。
  
  探针式BOSS
  实际应用效果
  
  经过一段时间的系统运行及不断改善,探针式BOSS监控系统对中国移动浙江公司业务质量的提高和运营能力的改善起到了相当大的作用:
  1. 提供有效的业务问题预警
  探针式BOSS业务监控系统平台正式运行后,平均每月针对业务效率的有效预警达29次,预警有效率和覆盖率均达到96%以上,相关人员据此进行主动式运维服务,使得月均故障数下降了34%。而且,在处理效率上,根据分析系统正式运行以来的告警数据,发现趋势预警时间点比原有的平台级告警和客服报障平均提前42分钟。
  2. 故障处理时长明显缩短
  
  CI/KPI模型
  系统试商用以来,依靠业务耗时细分、前后台资源模型等系统工具,实现了业务故障的快速定位,明显缩短了故障处理时长,与系统启用前相比,业务故障处理时长平均缩短了42%。
  3. 运营分析效率明显提升
  探针式BOSS业务监控系统为业务应用维护和系统平台维护人员提供了大量业务运营分析数据,运维人员原来需要分别从BOSS系统、平台监控系统和工作流平台界面查看对应的数据,而今只需要IT运营管理系统一个界面就可以完成所有运维所需数据的查看。同时,通过运营平台的7大类25张运维报表的自动生成功能,大大节约了定期业务维护的时间,有效提升了运营分析效率。
  4. 客户满意度明显改善
  依托探针式BOSS业务监控系统,业务维护支撑人员的工作模式逐步转为业务问题主动发现、业务故障主动解决。同时,由于能直观地以前台人员视角审视业务故障和问题,维护人员更能了解内部客户感知,解决问题做到有的放矢,明显改善了客户满意度。
  由于以业务为中心、以客户为导向,探针式BOSS业务监控系统使运营商业务支撑部门的运维目标与业务部门的目标更加一致,从而共同为客户提供优质的服务,同时在客户中也进一步树立了运营商优质服务的形象:
  对内,它转变了业务支撑部门运维员工的思路,从基础平台架构的监控向业务运营管理转变,加强了员工对于业务的了解程度,拓展了业务支撑部门员工的发展规划道路,并且该平台通过自动化监控、准确故障定位诊断功能,能够有效减轻员工工作量,避免了监控运维人员陷入疲于奔命,忙于救火,增加了员工的满意度。
  对外,它能够及时有效、甚至提前发现业务的使用问题,提升业务的可用性,从而使客户能够更顺畅地使用运营商提供的各项业务,减少了实际发生业务中断时的客户投诉数量,提升了客户满意度和忠诚度,在保持运营商市场占有率、提升服务竞争力方面发挥了重要作用。
  
  链 接
  当前运营商BOSS系统面临的主要问题
  以三大运营商中运营管理能力比较领先的中国移动为例,目前中国移动各省公司的BOSS运营维护管理面临的主要问题包括:
  (1) 现有监控手段比较初级
  传统的BOSS监控仅能简单地收集主机、数据库的参数状态,不能从业务应用的整体有机地进行监控和管理。
  (2) 业务应用监控困难
  缺乏对业务“软故障”的监控手段,对渐进式的业务故障很难做到及时发现,缺乏有效的指标表征业务应用的运营状态,往往在不知不觉中故障已经发生。
  (3) 无法快速定位故障
  缺乏业务与后台资源关联模型,发生系统故障后不能准确定位业务影响; 系统后台处理仍处于“黑盒子”状态,得知业务故障后也无法快速定位故障原因,客观上延长了故障处理时间。
  (4) 运营信息分散,分析不到位
  业务实时效率、办理量、成功率和服务投诉等数据分散存放在各自的生产系统中,维护人员为获得这些信息,需不断到生产系统的后台上去提取数据,严重影响了生产系统的安全性。
其他文献
我国卫生系统应该在电子病历推广和建设起步之初,及时配套推广应用可靠电子签名及认证服务,从而确保电子病历的法律效力,推动电子病历的健康顺利发展。    电子病历是利国利民的基础性工作。 2009年4月,新的医改方案发布。《中共中央国务院关于深化医药卫生体制改革的意见》明确提出,以医院管理和电子病历推动医院信息化建设。  2009年12月,卫生部、国家中医药管理局印发《电子病历基本架构与数据标准(试行
当前,高速发展的云计算、云存储、云安全等新应用模式正在推动着网络设备的融合,传统的通信、安全产品已经不能很好地满足多样化的需求。一些业务规模比较复杂的用户,逐步开始采用通用硬件平台来定制适合自身需求的产品。但无论是服务器还是工控机,都很难做到计算能力与I/O能力的平衡。针对这种情况,老牌网络安全硬件平台提供商立华科技于最近发布了全线云计算硬件平台产品,为此类用户提供了一个性能、I/O、可靠性俱佳的
本报讯(记者 李敬)3月24日,中国联合网络通信(香港)股份有限公司(简称“中国联通”)公布了2009年全年业绩。中国联通表示,面对国际金融危机和行业竞争加剧带来的挑战,以及宽带互联网业务和3G业务发展带来的机遇,公司全面整合资源,积极拓展市场,加快网络建设,业务发展保持平稳,收入结构逐步改善,网络能力明显增强,为公司未来发展奠定了良好的基础。  财报显示,2009年,中国联通实现营业收入1539
本报讯 近日,佳能高速扫描仪凭借先进的CMOS传感器技术、彩色扫描的优异准确性等优点荣获“优秀金融设备奖”。
频繁的“加密”让私装中星9号接收器的“用户”们很烦恼,但这依然难挡人们对直播卫星的向往,而管理部门封杀“山寨锅”生产和销售的行动,反倒让“用户”们看到了正规化的希望。    近日,国家广电总局科技司向全国各相关企业发出《广电总局科技司关于对直播卫星信道解调芯片和机顶盒进行检查的通知》(以下简称《通知》),要求企业不得生产、销售“禁止生产销售的芯片和机顶盒”,自查违规行为,并于3月25日前将结果上报
由于桌面虚拟化技术的不断完善以及市场本身对这样的技术存在日益强烈的需求,今年桌面虚拟化很可能将成为虚拟化市场的一个新热点。    “今年会是桌面虚拟化的元年,桌面虚拟化市场会出现明显快速的增长。”谈到今年虚拟化市场的热点时,思杰(Citrix)公司副总裁兼大中华区总经理曹衡康这样告诉记者,为了满足用户对桌面虚拟化的需求,思杰今年会重点针对桌面虚拟化技术加强对渠道的培训,以推动这项技术的落地。实际上
编者按:酝酿多时的计划有了实质进展。“.中国”域名最终通过国际评审;北京市软件和信息服务业被提升到新高度,成为北京市重大战略性支柱产业;在中国物联网创意应用大赛发布会上,上海发布了物联网三年规划。    本报讯(记者 汤浔芳) 4月28日,中国互联网络信息中心(CNNIC)宣布,由CNNIC代表中国提交的简、繁体“.中国”域名国际申请已通过互联网名称与编号分配机构(ICANN)的快速通道评审。这意
金融危机使得越来越多的中国企业将IT技术视为构建企业竞争力的基石,这为用友成就“世界级软件公司”的梦想奠定了一定的基础。    8月29日, 在成都举办的“2009经营与管理创新年度峰会”吸引了2000多位企业家、CEO、CIO、CFO,以及政府领导、专家学者的参与。  “在经历了金融危机之后,越来越多的企业已经意识到IT技术是构建企业竞争力的基石。” 用友公司董事长兼总裁王文京认为,企业的信息化
2009年的互联网有些不太平,网上各种盗窃网游账号、盗取网上银行密码的事件频发,在侵财案件似乎越来越多的同时由于电脑“被黑”造成的隐私泄露问题也层出不穷,而这种趋势也延伸到了2010年的第一季度。在这乱世之中,如何保护个人及公司的电脑系统安全可靠,如何在测试中对一款安全软件进行评判也令人深思,卡巴斯基发布的2010年网络威胁发展趋势报告或许能够对我们有一些启发,也让笔者感觉到安全软件这个电脑的“管
1月27日,甲骨文正式完成了对Sun的收购。有人把这场收购称为完美的“软硬结合”,有人则说这是Sun的灾难,究竟孰是孰非?未来,甲骨文将怎样与Sun进行“完美融合”?    甲骨文收购Sun终于在洛杉矶时间2010年1月27日落定。  当天,甲骨文发布了对收购Sun后的产品承诺。甲骨文表示,将积极推进MySQL开源数据库的发展,而不是任其自生自灭。同时,甲骨文还宣布了Sun其它软件和硬件的发展计划