数据中心可靠性和性能的数据关联分析研究

来源 :中国科学院大学 | 被引量 : 0次 | 上传用户：boaijuan

【摘要】

：

随着越来越多传统的社交和经济活动被搬到互联网上，数据中心的计算任务变得日益复杂，规模越来越大。数据中心的功能失效和性能失效成为了常态。另一方面，细粒度的数据采集工具产

【作者】

：

付晓毓

【机构】

：

中国科学院大学

【出处】

：

中国科学院大学

【发表日期】

：

2016年期

【关键词】

：

数据中心日志数据故障诊断失效预测响应延迟可靠性

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

随着越来越多传统的社交和经济活动被搬到互联网上，数据中心的计算任务变得日益复杂，规模越来越大。数据中心的功能失效和性能失效成为了常态。另一方面，细粒度的数据采集工具产生了反映数据中心行为的海量数据。系统日志(RAS log)详细记录了集群系统发生状态变化的各种事件，作业日志(Job log)中提供了负载运行时的变化信息。论文主要研究日志数据的关联分析方法。为了有效地提高数据中心可靠性，从分析集群系统产生的海量日志数据出发，研究了数据并行挖掘，全局故障诊断，提高失效预测的质量这样三个关键问题。另外，还研究了将Job日志和系统日志结合进行失效预测的方法，以及将敏感延迟类应用采集到的负载响应时间数据、操作系统层指标数据和体系结构层指标数据进行结合分析的方法，为理解响应长尾延迟的产生原因提供了手段。　　本文的主要贡献和创新点如下:　　(1)提出了一个日志事件相关性的并行挖掘方法和一个在线挖掘方法。通过海量系统日志所固有的事件突发和事件变迁特性，将日志事务集分割成突发分段和变迁分段，然后将包含同一个关键事件的所有变迁分段合并成一个日志事务块，使得生成的事务块之间达到最大的不相交:独立于其它关键事件生成的日志事务块，对这些日志事务块进行独立的频繁事件序列挖掘。通过在线的变迁分段和离线的变迁分段不断合并得到更新的日志事务块，对它在线挖掘频繁事件序列，再利用这些频繁事件序列更新预测模型。在三个真实的系统日志上进行的对比实验结果表明，我们的并行挖掘方法可以显著地优于经典的并行算法，在不损失频繁事件序列准确性的情况下具有近似线性的可扩展性。　　(2)提出了一个基于事件因果关系图的全局故障诊断方法。将一对频繁事件序列的相似度定义为这两个序列中相同的事件个数除以它们长度的几何平均数，据此将相关的频繁事件序列聚类，得到若干个频繁事件序列簇和相应的事件组，再按照序列中事件间的时间顺序从每一个序列簇中导出一个事件因果关系图。通过与经典贝叶斯网络学习算法生成的贝叶斯网络的对比，验证了我们的因果关系图的正确性，并在三个真实的系统日志上验证了因果关系图在精确的故障原因诊断上的有效性。　　(3)提出了一个基于失效规则抽取提高失效预测召回率的方法。利用因果关系图中存在的某些满足有效预测时间条件和置信度条件的频繁事件ID间的顺序定义了事件规则（事件发生规律），然后利用失效事件规则推演出该失效事件所在事件组中所有失效事件的潜在的频繁事件序列。在三个真实的系统日志上的实验结果表明，该方法比已有工作提高了8-15％的召回率。　　(4)提出了一种结合集群系统的系统日志和作业日志进行失效预测分析的方法。经过预处理和过滤，将原始系统日志和作业日志解析成具有细粒度信息的日志事务序列和作业事务序列。据此从作业事务中抽取出负载的三种失效征兆:大作业征兆，不同作业组合征兆和作业突发征兆，再利用这三种征兆实现失效预测。在真实日志数据上的实验结果表明，该方法可以方便地实现较高的失效预测准确率。　　(5)研究了数据中心请求响应长尾延迟与微体系结构层和操作系统层性能指标数据的相关性。针对一个延迟敏感类的搜索引擎应用，采集了各个索引节点在不同负载发生密度下单位时间内发生长尾延迟请求的个数，和该应用运行时的体系结构层和操作系统层的性能指标。通过计算皮尔森相关系数确定了与响应延迟强相关的指标集合，并依据这些指标的取值给出了针对数据中心响应长尾延迟的优化建议。

其他文献

基于云银行模型的基础资源管理策略的研究

作为一种新兴的IT服务提供模式,云计算能将各种类型的计算资源转化为能满足不同类型的最终客户需求的“产品”。在商业环境中,保证用户对产品与服务的需求是至关重要的,这是

学位

云计算计算资源定价资源调度QoS

面向主语的业务流程管理研究

随着世界经济和技术蓬勃发展,业务流程管理在科研领域和企业运用领域都有着很高的关注度。国内外专家学者们探索着流程管理的思想和方法,与此同时,企业也在科研成果的基础上,

学位

面向主语的业务流程管理扩展并行活动规划方案流程建模方法PI演算

面向目标特性库的典型目标几何特征提取研究

基于遥感影像的目标识别与提取，直接影响并制约着遥感影像在军事侦察、城市规划等领域的应用。作为目标识别与提取技术的关键环节，目标特征提取技术一直是遥感影像应用领域的研

学位

几何特征提取目标特性库目标识别可扩展性高分辨率遥感影像

UML到Web Services的信息模型转换及实例文档生成方法

网络管理接口的定义一般分为三个阶段：需求、分析和设计。其中,分析阶段的信息模型一般采用UML建模,主要以类图的方式呈现,设计阶段的信息模型与具体实现技术相关。随着Web Se

学位

网络管理模型转换UMLWeb ServicesXML

功耗评测与建模技术研究

功耗已经成为制约计算机系统发展的首要因素，对计算机系统整机及各软硬件部件功耗的准确测量与评价，是低功耗研究的基础。当前功耗测评领域主要包括两方面的挑战:(1)功耗基准测

学位

计算机系统功耗基准测试覆盖性遗传算法性能计数器多元线性回归

基于CPN的演化过程建立及规约验证研究

目前随着整个社会信息化的快速发展,软件遗产系统所面临的环境变为开放、动态、多变,那么遗产系统的演化也要随着这种变化要求具有动态性和自适应性,作为保障软件演化质量的

学位

软件演化过程软件演化过程模式模式查找演化过程规约验证

电动汽车加电站综合网管中监控系统的设计与实现

随着国家新能源战略规划的出台,电动汽车迎来了快速发展的新机遇,电动汽车加电运营已经由设想逐渐变为现实。为了推动电动汽车规模化、产业化、商业化和市场化发展,在如今这

学位

加电运营综合网管监控系统GIS

道口安全报警系统相关技术研究

长期以来，制约铁路产业发展的一个重要原因是是铁路道口安全防护问题。在封闭式铁路改建中，铁路道口安全报警系统可以有效地缓解道口安全问题。现有的道口监控系统只可以将道口

学位

道口安全报警系统障碍物检测运动补偿计分板模型图像处理

支持跨平台的RELOAD协议栈设计与实现

P2P网络具备高扩展性、自适应性和高性价比的优势,一直是分布式计算机网络研究领域的重点关注内容,P2P-SIP是其中一大研究热点。传统的语音业务使用运营商部署的昂贵设备及固

学位

RELOADP2PSIP跨平台性

基于ARM7的心电监护仪的软件设计与实现

随着经济的发展、生活水平的提高，人们的健康意识和健康理念逐渐增强，与此同时，人口老龄化进程加快，老年人常见病、慢性病的日常护理和治疗以社区和家庭为主，因此，对适合基层社区医

学位

心电监护仪小波变换阈值函数波形检测ARM7处理器

数据中心可靠性和性能的数据关联分析研究

其他学术论文