高性能深度学习算法研究

来源 :中国科学院大学 | 被引量 : 0次 | 上传用户：l77500

【摘要】

：

深度学习已经成为解决机器学习问题的重要手段。在图像分类，语音识别，文本翻译等领域，深度学习都取得了很好的效果。由于训练精确的模型需要具有大量参数的深度神经网络和海量的

【作者】

：

周可人

【机构】

：

中国科学院大学

【出处】

：

中国科学院大学

【发表日期】

：

2017年期

【关键词】

：

机器学习深度学习矩阵乘卷积学习算法

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

深度学习已经成为解决机器学习问题的重要手段。在图像分类，语音识别，文本翻译等领域，深度学习都取得了很好的效果。由于训练精确的模型需要具有大量参数的深度神经网络和海量的数据，我们迫切地需要针对现有体系结构的深度学习计算加速。本文针对深度学习中的典型计算，如卷积和矩阵乘等，深入分析性能影响因素，设计了一系列加速方法，并实现了在CPU，MIC，和GPU端，一套统一的深度学习计算接口——Blitz。对比主流的深度学习算法库，我们的实现具有较大的性能优势。　　本文的主要贡献有:　　基于CPU，GPU和MIC等体系结构对深度学习计算进行加速。本文分析了数据结构，并行模式和算法实现等因素对深度学习计算性能的影响。在CPU和MIC端，本文针对SSE，AVX，AVX2和AVX512指令集编写了不同的优化程序。基于不同的深度学习网络配置和不同平台，我们的程序可以自动选择分块的大小，从而最大程度上利用多级cache。相比传统依赖BLAS的深度学习加速方式，本文所采用的方式具有节省内存和高性能的优点。在GPU端，由于NVCC编译器不能将C代码转化为高效的GPU汇编代码，我们采取了汇编指令来优化卷积和矩阵乘程序。我们所采取的优化手段高效地利用了shared memory和globalmemory访存指令，避免寄存器bank冲突，利用了FFMA指令双发射的模式。　　我们提出了一个基于汇编指令的GPU性能分析框架。该框架通过输入汇编程序，测量各个必要指令的延迟和吞吐量，建立DAG图来模拟指令执行。此外，我们通过计算occupancy和确定并行度，从而预测程序的执行时间和性能瓶颈。最后我们对卷积和矩阵乘程序的建模，可以将误差控制在2％之内。　　对比Caffe，MKL，和cuDNN等主流深度学习计算库，Blitz取得了较高的性能提升。通过与Caffe等主流框架实现的对比，Blitz在CPU上有1倍的性能提升，在MIC上有3倍性能提升，在GPU上有4倍的性能提升。并且，对比MKL实现，Blitz在CPU上有8％左右的性能提升;对比cuDNN实现，Blitz在GPU上有40％的性能提升。我们的实现最终在CPU上达到了81％的峰值性能，在GPU上达到了84％的峰值性能。

其他文献

基于DOCSIS 1.1的CABLE MODEM固件设计

基于HFC结构、采用Cable Modem技术的宽带接入技术由于其技术优势已经成为最佳的宽带接入技术之一。本文介绍了Cable Modem技术和相关国际标准的发展，并给出了一种符合DOCSIS/

学位

HFCDOCSISCable Modem固件

SNMP及其网络管理应用的研究与实现

随着计算机网络的迅速发展，网络管理越来越重要，SNMP在其中扮演着重要角色。网络管理在我国的应用处于起步阶段，本论文针对国内中小型网络的网络管理，对SNMP协议框架、网管系统的

学位

SNMP自主开发WBM网管体系结构（B＋C）/S结构WinSNMP

土壤的计算机定量分析与模式识别

定量分析土壤显微图像是图像处理技术和分析技术应用的一个领域.该文通过开发土壤显微图像处理系统,探讨处理土壤显微图像的各种技术.作者首先介绍了珠江三角洲地区饱和粘土

学位

土壤微结构图像孔隙率图像分割OpenGL

基于排队理论的软件体系结构性能研究

软件质量一直是软件领域中的研究热点，大多数软件失败都和软件的质量有关。随着软件系统越来越复杂，基于体系结构的开发模式成为当前开发软件的主要模式，因此对体系结构的分析和

学位

软件体系结构软件质量软件度量排队理论体系结构性能性能模型进程视图体系结构分析方法

远程谐波电压监测系统的设计与研究

随着供电系统中各种类型的非线性负荷的不断增加，电网中的谐波含有率变得越来越高，由谐波产生的各类事故也呈不断上升的趋势。因此有必要对电网中的谐波含量及非线性用电设备可能产生的谐波畸变进行检测，掌握谐波的产生和分布情况，以便采取措施抑制谐波危害，提高供电质量。本文介绍了一种基于8051的在线式远程谐波监测系统，并对该系统的构成和相关技术问题进行了分析研究。本文就谐波计算的算法，谐波计算精确性的

学位

谐波含量COM技术网络通讯RTU

面向电子商务领域软构件库系统研究与应用

该文将基于特征的领域分析方法(FODA)引入到领域软构件语义分析过程中,提出了一种可扩展的电子商务领域构件语义特征描述框架,并结合软件构件的语法形式表示,提出了一种面向

学位

电子商务构件模型构件库可扩展标记语言XML关系数据库软件构件表示模型

基于多投影拼接及手势交互的数字展示设备的研发

学位

路由协议服务器的实现及其应用研究

该课题就是研究当前Internet上的主流路由协议——OSPF.OSPF的机制,OSPF的实现和OSPF在网络拓扑发现上的应用.在研究探讨了OSPF路由协议的理论和实现的同时,提出了路由协议服

学位

路由协议服务器路由技术OSPF网络管理拓扑发现

基于互联网的民航售票系统设计与实现

本文全面地介绍了基于互联网的民航售票系统的分析与设计技术及内容。分析了浏览器／服务器(Browser／Server)模式的网络体系结构，并采用了目前先进的开发工具Java Server Pages(J

学位

InternetwebB/SJSP电子商务

数据集成环境中基于日志的视图监视方法研究与实现

在信息爆炸的今天，如何及时、高效地从远程分布、自治、而且通常是异质的多个信息源集成需要的信息到客户端变得越来越重要。数据集成技术正是为了解决这一课题而提出的一种有

学位

数据集成视图监视日志分析增量计算增量报送

高性能深度学习算法研究

其他学术论文