深度学习并行分布式训练机制研究

来源 :华中科技大学 | 被引量 : 0次 | 上传用户:lynxmao
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,为了提升模型性能,深度学习模型的规模和训练数据集不断地增大。然而,基于大规模数据的模型训练面临着收敛缓慢、计算耗时的问题,这对优化算法和硬件计算能力提出了巨大的挑战。并行分布式训练是从硬件计算的角度出发,利用多核/众核处理器、集群或云的计算能力,加速模型训练,减少优化算法的计算时间。高效的并行分布式训练是模型特征与硬件计算结构的协同设计。对于单计算卡上的并行训练,主流的并行算法以矩阵计算为核心,其并行性能依赖于所调用的矩阵计算库。对于多图形处理器(Graphic Processing Uint,GPU)上的分布式训练,同步数据并行算法虽然收敛性能好,但它的分布式加速比受模型结构和计算特征的影响,亟待优化和提升。围绕上述问题,从以下三个方面开展研究。
  从并行训练的硬件体系结构方面考虑,探索集成众核架构(Many-core Integrated Core,MIC)协处理器对深度学习模型的并行加速能力。考虑到MIC卡具有线程级和单指令多数据流的并行特征,提出了基于小批量(mini-batch)和神经元的两级并行算法,加速无监督深度自编码器模型的训练。为优化并行算法性能,设计计算与传输覆盖策略隐藏CPU与MIC间的数据传输,采用梯度重计算策略减少内存开销,利用原子操作减少线程同步开销。实验结果表明,与基于矩阵计算的并行方法相比,基于小批量和神经元的并行算法加速比稳定,与单核CPU训练相比,取得了4.5倍的加速比。
  从分布式训练的网络通信开销方面考虑,通过对单机多GPU环境中,不同结构的深度学习模型采用同步数据并行分布式训练时加速比的观察,全连接神经网络的梯度交换面临着严重的网络开销问题,极大降低了分布式训练的性能。基于这一观察,提出基于模型平均的分布式训练框架,各子模型以较低的频率同步,从而减少网络开销。该框架实现了四种模型平均算法,支持随机采样和置乱切分的数据划分方法,通过多个流实现多GPU的并行,设计数据流和计算流策略来实现数据传输与计算的覆盖。基于多GPU的拓扑结构,设计树规约的参数交换机制。实验结果表明,与单GPU并行训练相比,基于模型平均的并行算法在两块GPU上取得了1.6倍的加速比。与同步数据并行相比,它取得了17倍的加速比。
  从分布式训练算法设计方面考虑,研究基于复合深度学习模型的并行算法。推荐系统是复合深度学习模型的典型应用场景,以手游中商品推荐为例,构建基于长短记忆网络、自编码器和注意力网络的复合推荐框架,以满足该场景对用户兴趣和推荐结果可解释性的需求。其中,长短记忆网络用于建模用户的即时兴趣,自编码器用于特征向量的编码,注意力网络为推荐结果的可解释性提供指导。为加速模型训练,考虑到各子模型的计算特征,提出基于层划分的模型并行算法。与单GPU训练相比,在四块GPU上训练取得了2.6倍的加速比。
  综上所述,围绕着深度学习的并行分布式训练机制,分别从面向深度自编码器的并行训练、面向全连接深度学习模型的分布式训练和面向复合深度学习模型的分布式训练开展研究,设计并行分布式算法和框架,充分发挥硬件的计算能力,加速深度学习模型的训练。
其他文献
近些年来,物联网技术的飞速发展已经使得人、机、物三者的融合共生成为了一种不可逆转的趋势。人机物融合应用的发展现如今还面临着诸多挑战,如何在边缘场景下进行高效的资源调度是其中的关键问题之一。边缘场景下的人机交互应用会产生大量的数据,如果选择不在网络边缘侧处理这些数据,数据的传输过程将会给网络带宽带来极大的负担,同时数据传输所带来的高网络延迟也会让一些延迟敏感应用的使用体验感大大降低。但在网络边缘处理
学位
移动边缘计算作为边缘计算的一种实现形式,其在一定的程度上有效的弥补了云计算在实时性处理、带宽占用以及数据隐私安全方面的不足,并且在人机物融合应用方面具有十分良好的前景。但是,由于边缘计算所依赖的边缘设备本身所固有的携带能量有限、计算能力有限、存储能力有限的局限性,边缘计算在应用的过程中往往面临着各种各样的挑战。  针对移动边缘计算场景下,边缘设备接入接出灵活的特点,以及由边缘设备接入接出所引发的边
近年来,知识图谱由于其表达丰富信息的能力及其在基于知识的推理中的潜力而受到了广泛的关注。例如,它们可以协助(与移动服务中的用户关联,切换策略和流量内容)相关的深入知识发现。知识图谱嵌入可以将知识图谱中的实体和关系投影到密集且低维的向量中,并通过这种方式有效地测量复杂的语义信息以及这些实体之间的关系。但是,传统的知识图谱嵌入方法仅考虑知识图谱中的直接事实,在面对稀疏数据时,很难实现对实体和关系的合理
学位
在如今的大数据时代,智慧城市的理念与建设蒸蒸日上,作为和谐社会的安全保障,监控摄像头可谓随处可见。监控视频下的行人属性识别通过统计整合信息实现对行人的信息结构化,这对于智能安防、刑事侦查、广告精准投放等领域具有至关重要的作用和意义。但是由于监控视频场景复杂,而且行人属性类别间的相关性和属性类别与空间位置间的关联较难挖掘,行人属性识别任务仍具有挑战性。  本文提出的基于语义分割的行人属性识别方法,针
随着互联网技术的迅速发展,大数据时代下信息过载的问题日益严重。能够提供个性化信息服务的推荐系统成为解决上述问题的主要技术,而其中的矩阵分解模型因其简单高效且准确度高得到了广泛的关注。传统的仅使用用户对商品评分信息的矩阵分解模型及其他协同过滤方法容易受到评分稀疏的影响而效果不佳。现实生活中,广泛存在于网络且容易获取的用户评论能一定程度反映用户的喜好和被评论商品的特征,因此结合评论文本的个性化推荐算法
随着直播行业的迅猛发展,观看直播成为了大量用户的主要文娱活动之一。但是各大直播平台的相互独立性一方面影响了用户体验,一方面难以满足相关部门的监管需求,将各大直播平台动态聚合成为必要。直播平台自身发展的过程中,平台内部也遇到了信息过载的问题,而直播背景下的推荐不同于电影视频等推荐,具有时效性、隐蔽性和不确定性的特征,更为重要的是直播平台在迅速扩张过程中引入的新用户与主播会加剧推荐系统中的冷启动问题,
学位
现实生活中的推荐系统经常面临这样的问题,仅基于短时会话(session)的数据(例如小型新闻网站),而不是长期的用户记录(例如淘宝、京东等)进行推荐。在这种情况下,常用的矩阵分解方法是不准确的。近来,循环神经网络(Recurrent Neural Network, RNN)被广泛应用在基于序列数据的推荐中,但是RNN在基于序列数据的推荐中也有其不足,因为其仅仅考虑了序列中的时序信息,而没有考虑其他
学位
随着信息技术的快速发展,现代社会数字信息量急剧增长。根据国际数据公司(IDC)于2018年11月发布的《数据时代2025(Data Age 2025)》报告,全球所有数据的总和将由2018年的33ZB增长到2025年的175ZB。海量数据的存储需求推动了大容量存储设备市场规模高速扩张,也对各类存储技术的发展提出了更高要求。与光存储、半导体存储等相比,磁存储的单位存储成本更低,综合性能优势更大,基于
学位
随着大数据时代的到来,数据中心成为数据存储的主要场所,其数据量呈指数级增长,对存储器的需求也大大增加。磁盘存储器具有高密度、大容量、高性价比等优点,是目前数据中心的主要存储设备。然而,磁盘存储器寿命短、故障率高等问题大大降低了数据中心存储系统的可靠性。磁盘故障不仅影响数据中心服务的可用性,还会给数据中心运维带来巨大的开销。因此,研究磁盘故障问题对提升数据中心存储系统的可靠性和减少数据中心运维成本具
学位
电力系统分析是电力系统规划设计、调度控制的决策基础和科学依据,是保障电力系统安全稳定运行的基本手段之一。电力系统分析以数字模型代替实际电力系统,用数值计算方法对系统的运行特性进行实验和研究。随着电力系统规模的增大,系统元件模型日益复杂,对系统机理研究越来越精细,电力系统分析的规模和复杂度空前增长,迫切需要利用并行计算技术提升电力系统分析应用效率。  与此同时,高性能计算硬件技术得到飞速发展,以GP
学位