【摘 要】
:
随着全球用户存储需求的增长,云数据中心存储系统组织结构越来越复杂,各种存储设备交叉混用已是常态,硬盘作为最主要的存储设备直接影响着存储系统的性能与安全。近年来,基于硬盘的SMART属性使用机器学习算法来对硬盘进行故障预测的主动容错方案逐渐成为主流。但现有方法仍面临以下挑战:一是针对正负样本不平衡问题,常用的重采样技术没有考虑硬盘的实际健康状态导致重采样后样本质量不高;二是在大规模的云数据中心场景下
论文部分内容阅读
随着全球用户存储需求的增长,云数据中心存储系统组织结构越来越复杂,各种存储设备交叉混用已是常态,硬盘作为最主要的存储设备直接影响着存储系统的性能与安全。近年来,基于硬盘的SMART属性使用机器学习算法来对硬盘进行故障预测的主动容错方案逐渐成为主流。但现有方法仍面临以下挑战:一是针对正负样本不平衡问题,常用的重采样技术没有考虑硬盘的实际健康状态导致重采样后样本质量不高;二是在大规模的云数据中心场景下,训练时间成本高的建模方法无法快速适应不断到来的新数据,导致模型易老化问题;三是大规模的云数据中心硬盘是异构的,未具备高效建模特性的同构硬盘故障预测模型难以泛化,只能通过重新训练整个模型来预测不同型号硬盘的故障。针对以上问题,本文的主要研究工作及创新点如下:1、针对挑战一,提出一种基于近邻传播聚类算法的重采样策略,它充分考虑了硬盘的实际健康状态。该策略通过故障盘样本的标记策略完成对正样本的过采样,通过健康盘样本的筛选策略完成对负样本的欠采样,解决正负样本的不平衡问题。在公开数据集上,对比另一种方法进行重采样,在该重采样策略获得的样本子集上模型均获得了更好的预测性能,验证了该重采样策略的有效性。2、针对挑战二,提出一种融合近邻传播聚类算法和宽度学习系统的同构硬盘故障预测模型。在解决了正负样本不平衡问题的基础上,利用宽度学习系统高效的建模特性,快速构建故障预测模型,当新数据到来时通过增量学习更新输出层权重,克服模型易老化问题。在对原始的不平衡数据集进行重采样后获得的不同样本子集上,通过与其他模型的对比实验,证明了该预测模型的有效性。3、针对挑战三,提出一种基于流形正则化宽度学习系统的异构硬盘故障预测模型。根据流形正则化框架构造异构输入数据的拉普拉斯矩阵,来近似表达异构样本整体的流形结构,进一步约束宽度学习系统原优化问题的解,提高其跨领域的学习能力,解决异构硬盘的故障预测问题。在两个公开数据集上,分别以两种异构硬盘的SMART数据作为模型的输入数据进行实验,证明了该预测模型的有效性。
其他文献
电子商务、物联网和大数据产业方兴未艾,云计算正发挥着越来越重要的作用。在云计算环境中,如何为用户合理分配资源是一个重要的研究内容。同时,云计算迅猛发展促使云数据中心的数量和规模不断扩大,也增加了数据中心的管理难度。能源和气候问题日益受到人们关注,解决云数据中心突出的高能耗问题迫在眉睫。任务调度技术是为用户合理分配资源以及降低数据中心能耗的有效方法。一方面,它通过将任务调度到合适的位置,可以很好地为
随着互联网技术的快速发展以及网络带宽的迅速提升,网络协议电视(IPTV)相比于传统电视能够提供更多的电视直播频道以及其他多样化的内容服务,因此在家庭用户中变得更受欢迎。然而IPTV用户也不得不面临着信息过载的问题,他们必须花费更多的时间去寻找满足其兴趣的电视直播频道。电子节目指南(EPG)仍然是目前IPTV服务商提供给用户帮助其选择频道的常见辅助工具,但是EPG只在分层菜单中提供一个包含所有频道节
在中国金融市场不断深化发展的现实背景下,金融市场也随着机构资金的大量涌入而呈现出蓬勃发展的态势。而农产品期货市场作为金融市场中的重要组成部分,其在近些年的发展态势也备受瞩目。中国农产品期货市场作为期货市场上的新生力量,开始在期货市场上崭露头角,中国的部分农产品期货品种的合约交易量已达到世界领先水平。而目前,中国的农业政策也正步入依靠农产品期货市场来调控农业风险的转型阶段。基于农产品期货市场的价格发
低秩矩阵优化问题在统计、控制与系统识别、机器学习、信号与图像处理、组合优化、金融、量子计算等诸多领域具有广泛而重要的应用.本论文基于秩函数的因子变分刻画,提出了低秩矩阵优化的列l2,0正则因子模型,并研究了求解这类非凸非光滑优化问题的有效算法,以此来丰富低秩矩阵优化的计算方法.论文首先通过研究列l2,0正则因子模型的MPEC形式的全局精确罚,导出一族等价的DC正则代理;然后研究了DC正则代理模型、
旋转机械作为最常见的传动装置,在机械设备中起着主要的动力传输作用,开展旋转机械故障诊断研究,对于保障机械设备的安全平稳运行、防止因机械故障导致的重大经济损失和安全事故有着重要的意义。当前,深度学习凭借其强大的特征提取和非线性映射拟合能力,已经被广泛应用于旋转机械智能故障诊断中。但是,深度学习模型强大的故障诊断能力依赖于大量与测试数据独立同分布的标签训练数据。在旋转机械运行过程中,设备故障的产生和发
星型共轭结构,特别是具有三重旋转轴(C3)的对称结构,具有更大的吸光面积和更多的活性位点,在有机光电领域有巨大的发展潜力,但因合成难、溶解性差等因素而限制了其结构拓展与器件加工。N—B←N桥结构具有成键简单,分子构型平面化,分子前线轨道能级降低以及吸收光谱红移等优点,在有机发光、有机太阳能电池、有机场效应晶体管、光探测以及生物成像等领域具有广泛的应用。因此,将星型共轭结构与N—B←N结构融合,得到
5G和计算密集型应用的出现驱动了移动边缘计算(Mobile Edge Computing,MEC)及计算卸载的发展,其中并行计算任务的卸载决策与编码配置选择问题受到学术界的广泛关注。本文将针对可切分计算任务和编码计算任务,使用演化博弈论(Evolutionary Game Theory,EGT)方法分别对任务的卸载决策和编码配置选择进行研究。(1)提出一种针对可切分计算任务的卸载决策算法。移动边缘
本文主要考虑了可压缩非等熵Navier-Stokes-Maxwell方程组.该方程组是由Navier-Stokes方程组通过洛仑兹力与Maxwell方程耦合得来的,是描述导电流体(气体)在电场和磁场相互作用下运动的基本模型,具有非常广泛的物理和工程背景.关于Navier-Stokes-Maxwell方程组的数学理论是偏微分方程领域的研究热点之一,目前还有许多尚未解决的问题.其中Navier-Sto
语法错误纠正(Grammar Error Correction,GEC)是一项经典的自然语言处理(Natural Language Processing,NLP)任务,旨在自动纠正文本中的语法错误和相关错误。GEC对于全世界日益增多的第二语言学习者、儿童和学生而言具有重要意义,并且能够帮助母语使用者更正大规模文本文件。此外,一些NLP任务,例如词性和文本摘要,需要GEC对输入文本进行检查和更正。经
随着互联网用户数的增加以及信息的增长,传统架构的网络在许多方面已经不再能满足人们的需要。新型的软件定义网络(SDN)架构实现了数据平面和控制平面解耦合,使通信设备的控制功能集中在一起,同时提供了统一接口,增强了控制层的编程能力,提升了网络优化运行的能力。虽然SDN具有这些优点,但是SDN主要基于集中控制架构,且主要面向的应用是有线骨干网,在军事领域的网络系统中应用时仍会面临许多新的挑战,本论文将针