面向深度学习框架的资源管理系统设计与实现

来源 :中国科学院大学 | 被引量 : 0次 | 上传用户:yufs80131234
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
深度学习是近年来机器学习领域最令人瞩目的方向。自2006年深度学习界泰斗Geoffrey Hinton在Science杂志上发表Deep Belief Networks的论文后,学术界和工业界对深度学习热情高涨,并逐渐在语音识别、图像识别、自然语言处理等领域获得突破性进展。  深度学习具有模型复杂、训练数据多、计算量大等特点。随着深度学习模型在规模和计算需求上的快速增长,应用CPU集群计算深度学习模型已力不从心,而GPU因其具有强大的浮点计算、矩阵计算能力,极高的内在并行性,非常适合深度学习。在相同的精度下,GPU相对CPU而言拥有更快的处理速度、更少的服务器投入和更低的功耗。GPU已被广泛应用于深度学习作业。因此,在面向深度学习的资源管理系统中增加对GPU的细粒度支持已成为当务之急。  深度学习作业分为训练型作业和生产型作业,训练得到的模型用于生产,生产产生的数据反馈训练,两类作业在实际使用中相辅相成。并且,现有研究表明,将两类作业部署在相同的集群可以提高资源利用率、降低成本。但是训练型作业需要大量的计算,生产型作业又要求实时响应,在集群复用后为了保证生产型作业的实时响应将会不断的中断训练型作业,从而影响训练型作业的及时交付。因此,两类作业复用集群在带来诸多好处的同时也给集群调度带来了巨大挑战。  研究人员为此开展了大量的研究工作,并取得了一定的成果,但是仍然存在一些问题:(1)能否细粒度支持GPU问题。现有资源管理系统无法支持GPU或者仅将GPU作为一个特殊设备,不能细粒度的管理和调度GPU资源。(2)作业异构性调度问题。现有调度系统未能很好的区分生产型作业与训练型作业的资源需求以及时延需求,不能保证训练与生产协同调度。(3)GPU资源利用率与生产型作业服务质量的协调问题。现有研究成果尚不能很好兼顾GPU资源利用率和生产型作业的服务质量,面向生产型作业的资源弹性伸缩在GPU维度仍存在一定的不足。  针对上述问题,本文对现有资源管理与集群调度研究成果进行了细致深入的分析与对比,提出了面向深度学习框架的资源管理系统的三种关键技术,并在实际应用场景中设计实现了资源管理系统TaiRM,解决了上述问题。本文的主要贡献如下:  1.面向GPU集群提出了一个资源描述模型。该模型包含两部分:在物理资源层面,系统基于静态和动态信息归一化GPU资源的计算能力;在作业需求层面,系统基于资源预测模型预测作业的GPU资源需求,合理使用GPU资源提高各阶段的效率。  2.在生产与训练复用集群的情况下,提出调度包括GPU在内的多种资源调度策略。系统保证生产型作业资源充足的同时,尽量调度空闲资源给训练型作业。从而确保生产型作业具有良好的响应能力的同时,尽快完成训练型作业,以此达到提高资源利用率的效果。  3.为了兼顾GPU资源利用率和生产型作业服务质量,提出了一种面向生产型作业的资源弹性伸缩策略。该策略能够根据生产型作业负载情况及时调整资源。在保证生产型作业服务质量的前提下,有效的提高GPU资源利用率。  4.设计并实现了一种面向深度学习作业的资源管理系统TaiRM。该系统实现了上述各种机制,并经过实际应用和多种实验验证了方案的可行性、正确性以及有效性。
其他文献
随着多媒体技术、网络技术的迅速发展,图像信息的应用日益广泛,对规模越来越大的图像数据库、可视信息进行有效的管理成为迫切需要解决的问题,基于内容的图像检索是解决这一问题
计算机信息设备在工作时,会伴随产生电流传导以及辐射电磁波等,通过捕捉泄漏的能量,可以获取其中包含的内在信息。因此信息设备的能量泄漏除了对环境构成污染、产生电磁干扰外,还
计费帐务系统贮存着用户使用电信业务的各种费用和帐务信息,记录着电信企业主要收入信息,关系到电信企业的经营效果,因此计费帐务系统对电信企业而言其地位十分重要.今后的竞
随着多媒体技术和通信技术的蓬勃发展,音频视频数据在网络传输和交互日益广泛,特别是MPEG系列标准提出来以后,基于MPEG的应用更是一日千里,深入人心。本文将研究基于MPEG-4的4路
传输控制协议(TCP,Transport Control Protocol)是最重要的传输层协议之一,它提供端到端可靠的字节传输服务,被广泛的应用于互联网的各类服务中。然而,近年来,随着网络带宽和用户
该人结合自己参与《学校管理系统网络平台》软件开发实际工作,对B/S体系结构开发应用系统的有关技术进行了分析.在第二章以传统的C/S结构、三层体系结构、B/S结构特点进行了
模式串匹配技术广泛应用于网络和内容安全领域,是网络内容安全分析和深度检测的关键技术之一。在近几十年的网络飞速发展中,网络安全分析始终是影响众多领域的研究热点。随着网
随着计算机网络的迅速普及,电子商务已经成为国际上的热潮。如何结合电子商务教学,开发出适合教学使用的电子商务教学模拟系统,是一个新的任务。本论文介绍了电子商务教学模拟系
数据仓库是数据挖掘和决策分析的基础,纠正数据错误是避免错误决策、降低决策风险的重要一环.因此,数据仓库需要高质量的数据.完成这项艰巨的任务就是ETL.该文主要研究基于元
深度学习技术是目前计算机科学中的研究热点,在图像识别、语音处理等应用领域中取得了巨大的成果。随着深度学习技术的推广与应用,越来越多的深度学习框架涌现出来,例如Caffe、T