【摘 要】
:
在分布式深度学习训练中,梯度和参数的同步通常会带来巨大的网络通信开销。现有的通信优化方法主要包括通过量化或稀疏的方式进行梯度压缩和一些通信模式的优化。然而,现有的方法一般对所有层和所有网络采用同样的压缩方法,忽视了网络中不同层的不同特性及不同网络的差异性,导致优化效果不理想。 针对现有优化方法的不足,提出一种基于模型结构特性的混合通信优化方法——Hylo。采用两种不同的策略对两种不同类型的层(卷
论文部分内容阅读
在分布式深度学习训练中,梯度和参数的同步通常会带来巨大的网络通信开销。现有的通信优化方法主要包括通过量化或稀疏的方式进行梯度压缩和一些通信模式的优化。然而,现有的方法一般对所有层和所有网络采用同样的压缩方法,忽视了网络中不同层的不同特性及不同网络的差异性,导致优化效果不理想。
针对现有优化方法的不足,提出一种基于模型结构特性的混合通信优化方法——Hylo。采用两种不同的策略对两种不同类型的层(卷积层和全连接层)进行梯度压缩。具体地,根据层的参数规模决定是否对相应的层进行通信优化,当层的参数规模大于某个设定的阈值时,意味着传输成本可观,需要对该层进行优化。对于卷积层,根据每一层的参数规模大小设置层自适应传输率,每次进行权值参数更新时仅选择一些重要的卷积核将其梯度传输给参数服务器,其余卷积核的梯度在本地累积至下一轮参数更新;对于全连接层,根据该层所有梯度值的总体大小自适应设置量化阈值,使用该阈值将原始32位浮点数表示的所有梯度量化压缩为2位传至参数服务器,参数服务器进行解压缩恢复为32位浮点数梯度,量化所带来的梯度偏差在本地累积至下一轮参数更新。
上述方法实现在典型分布式深度学习系统MXNet上,使用一些代表性的数据集(例如CIFAR10,CIFAR100和ImageNet-1K(ILSVRC2012))进行测试评估。实验表明,Hylo方法为分布式深度学习训练带来了明显的加速,且精度损失低于0.5%。与已有方法相比,Hylo可提升训练速度多达30%。
其他文献
键值数据库由于其结构简单、查询速度快,具有高可靠性和高扩展性的特点,·得到了广泛的应用。各类应用对键值存储系统读写性能的要求也越来越高,要求存储设备提供更快的读写性能。Intel公司为了解决SSD和内存中存在的巨大性能差异,推出了Optane系列产品。傲腾固态盘作为非易失存储器的硬盘产品,有良好的读写性能同时随机读写与顺序读写性能差异不大。传统的键值存储系统采用LSM-Tree(Log Struc
云计算近年来在工业界越来越普及,这主要得益于虚拟化技术的成熟和容器技术的发展,将应用以容器方式部署在云环境中已非常普遍。无服务器计算是基于容器技术衍生出的一种新的云计算范式,容器为无服务器计算带来了无显式管理成本、按用量计费、弹性扩容等优势。然而这种计算范式将传统的宏应用分解成无状态的细粒度函数,当突发负载到来时,无服务器计算平台启动大量容器并初始化函数执行环境(即冷启动),这会带来显著的启动延迟
容器虚拟化技术因为其轻量的特点,已经在云中被广泛使用。Docker是目前最受欢迎的容器框架,原因是它可以将应用及其依赖打包成一个独立的容器镜像。通过容器镜像,用户可以方便地存储、部署容器。当前Docker采取了层级结构构建镜像,使得容器在存储和部署时相同的层只会被存储和拉取一次。然而,当前层级结构下的镜像会在镜像中引入冗余数据和不必要数据,造成容器存储和部署的低效。调研DockerHub上使用率前
在大数据、物联网和5G时代,随着各类智能终端、智能应用和传感器的普及和发展,数据呈现快速动态增长的趋势,需要面对流式数据的应用也越来越多。流式数据中虽然蕴藏着巨大的潜在价值,但因其具有增长迅速、持续不断、时效性强等特点,如何对流式数据进行高效、动态的挖掘分析成为重要的课题。 基于张量的多聚类作为聚类领域在高阶数据上较为先进的方法,能够在多个不同维度上对高阶大数据进行多模态分析挖掘。目前关于张量多
随着私家车的普及和交通体量的增大,智能交通监测技术已经得到了越来越多的关注,智能交通监测可以支持一系列应用例如交通堵塞疏导,智能交通管理和自动驾驶辅助等。而针对于一些需要低投入,部署范围广,方便扩展的特定场景如乡村道路监测,特定时间和路段的交通量调查等,如何实现便携的,有效的,易扩展的,低成本的,便于部署的以及鲁棒性强的智能交通监测就尤为重要。 通过测量细粒度的无线信号信道状态信息的变化实现智能
随着RDF(ResourceDescriptionFramework,资源描述框架)数据的逐渐增多和SPARQL(SPARQL Protocol and RDF Query Language)查询处理场景的日益丰富,查询计划的生成面临很多挑战。一方面,现有的RDF查询处理系统在生成查询计划时比较耗时。另一方面,这些系统在生成查询计划时对代价的估计不够准确,且较少考虑查询执行的并行技术,使得查询执行
深度学习作为最强大的数据挖掘技术,在各个领域都有着广泛的应用前景。然而在基于云计算的服务模式下,如果用户数据中存在隐私敏感信息,那么将存在潜在的隐私泄露风险。同时,深度学习算法提取到的中间特征不具有抗隐私分析能力,也存在对应的隐私泄露风险。 针对深度学习应用在推理阶段面临的用户数据隐私泄露风险,模型分割部署模式基于深度神经网络层级连接的特点,将神经网络从中间层一分为二,分别部署在客户端与服务器端
近年来,图规模和图数据量的快速增长使得分布式图计算吸引了越来越多研究者的注意。拥塞模型是分布式算法设计中最常使用的模型之一,然而带宽的限制使得一些复杂的图计算问题在时间复杂度(在分布式算法中多用轮数复杂度表示时间复杂度)上往往难以令人满意。分布式图性质测试是一种可以有效降低算法轮数复杂度的方法:根据给定图具备或者ε-远离目标性质,图性质测试算法会相应地以一定概率(通常为2/3)输出肯定或否定结果。
深度学习训练过程中,训练数据的传输路径一般为从磁盘到DRAM,然后再到GPU内存。该路径的效率很大程度上受限于磁盘I/O的性能。非易失性随机访问内存(Non-volatile Random Access Memory , NVRAM )提供了一种新的解决思路。NVRAM容量大,读取速度快,但写入速度相对较慢,因而通常和DRAM组合成混合内存系统,以改善系统性能。然而,目前绝大多数深度学习系统尚未挖
随着社会公共安全需求的不断增长,高清监控设备已经遍布城市的各个角落,人们的一言一行都以图像序列的形式保存下来,传统的基于人眼分辨的模式不论是在成本还是效率方面都显得力不从心。行人重识别(Re-ID)的任务就是解决跨摄像设备下的行人匹配问题,通常被认为是目标检索的子任务,主要是利用行人步态动作、身体特征等更为全面的信息来识别人物,基于深度学习的行人重识别算法已经是当下一个热门的研究方向。 对比学习