基于查找表的深度卷积神经网络的模型压缩与推断加速

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:zdbzdb
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
卷积神经网络(Convolutional Neural Network,CNN)在目标检测、图像分类领域有着广泛的应用,但由于其海量的参数量和计算量限制了在算力匮乏的移动终端上的部署。参数量化(Parameter Quantization)可以有效降低模型存储空间、提升运算速度,是降低CNN计算负载的方式之一。当CNN中乘法的乘数均被量化,所有乘数组合的乘积可在推断前预先计算并存储,原本的乘法操作可替换为在乘积查找表(Lookup Table,LUT)中的查值操作。相比于浮点乘法,基于查找表的乘法具有占用资源少、运算效率高的优点。然而由于模型的不同层级、不同通道之间参数的分布差异较大,此前基于查找表的CNN为维持模型量化后的性能,往往采用较大规模的查找表存储乘积,或者各卷积层独立进行量化,每层采用独立的乘法查找表存储乘积的结果。以上两个方式导致查找表内存占用过大、内存反复重载成本高等问题。为解决上述问题,本文通过引入权重标准化(Weight Standardization)操作使各层分布趋同,从而CNN的不同层次可以共用同一个查找表;同时,本文引入迭代式聚类的参数非均匀量化方式,补偿参数低精度量化带来的模型性能损失。通过上述训练策略的调整,采用单个16×16的乘法查找表可取代CNN中所有乘法运算,在Res Net、VGGNet、Alex Net上相比全精度模型性能几乎无损,相比同类采用查找表进行卷积中乘法计算的CNN在大幅缩小了查找表的尺寸以及数量。为验证算法在硬件层面的有效性,本文以FPGA为目标硬件平台,实现基于查找表的CNN加速推断系统。根据查找表乘法计算的特点,设计适用于查找表乘法的同步数据流计算架构,提出矩阵分割、输入重排序、并行查找矩阵乘法等多种优化方式以优化卷积实现。通过C++的模板功能实现参数可配置的基于查找表的卷积层、池化层、激活函数、全连接层等卷CNN基本模块,提升模型部署与验证的效率。本文所采用的基于查找表推断的CNN在资源占用率、功耗、速度上均优于同精度的定点数乘法实现方式,实验证明在同样的精度表现下,通过查找表进行CNN推断相比定点数实现可降低56.1%的BRAM和52.1%的DSP资源使用,并减少21%的功耗;在PYNQ-z2上可达到近4.5GOPs/s的计算吞吐量,相比于PYNQ上的ARM Cortex A9处理器提速近59倍。
其他文献
山西省大同市浑源县的扇鼓艺术有着几百年的历史,是一种集曲艺、舞蹈、打击乐器为一体的艺术。随着社会的发展,浑源扇鼓由最初的雏形不断的吸收、容纳和创新,最终发展成为一种独立的、具有地方特色的艺术,广泛流传于民间,深受民众的喜爱。2010年以曲艺的形式入选大同市第二批市级非物质文化遗产名录。本论文主要是以浑源扇鼓的现存境况为研究对象,通过查阅《中国民间舞蹈集成(山西卷)》发现没有对浑源扇鼓的记载,而在顾
微控制器(MCU)是一块集成了中央处理器、存储器以及多种I/O接口的微型芯片,具有极强的通用性,在工业控制、汽车电子等诸多领域都有广泛的应用。近年来,随着人工智能、无人驾驶等领域的兴起,对MCU的发展提出了更高的要求。UART作为一种串行通信设备,是MCU与计算机中进行串行数据通信的重要设备。UART可以实现数据的串-并转化,在接收数据时对串行数据进行逐位接收并转化为并行数据存储在缓冲区中;发送数
【调研背景】突如其来的新冠肺炎疫情,对我国经济社会发展带来了诸多挑战。山东康尔泰防护用品有限公司(以下简称康尔泰公司)在应对这次突如其来的疫情中以最快的速度对企业
河内宇宙线的起源始终是天体物理方向的一个重要课题,其中电子/正电子的起源又是河内宇宙线起源这一课题的重要分支。由于同步辐射与逆康普顿散射,高能电子/正电子在传播过程中会快速地损失能量。因此,地球附近探测到的这些高能粒子必然是由邻近的源所产生的。对于宇宙线电子而言,普遍认为是由银河系内的超新星遗迹加速产生,而对于宇宙线正电子的起源则有许多不同的理论模型:作为初级粒子由邻近的脉冲星、暗物质湮灭等产生,
学位
中学语文教学的基本任务,是培养学生初步学会运用祖国语言文字的能力。古诗词炼字教学作为高中阶段鉴赏教学中最重要的一个环节,在语文学习过程中,特别是在鉴赏古诗词中,对培养学生健康的审美情趣,思想情感的熏陶起着重要的作用。诗人在创作诗词时,往往反复推敲,锤炼出最贴切、最富有表现力的字词来表情达意。那么这对于鉴赏诗歌是很好的切入点,只有把握古人的炼字技巧和方法,总结出语文老师教学中的炼字艺术教学原则,才能
我国私家车保有量不断攀升,交通拥堵问题已成为困扰城市发展的城市病之一。为了解决城市发展中的拥堵症结,公交优先发展战略应运而生。公交出行作为该战略的重要组成部分之一
一篇文章的成功,固然有着多方面因素,但往往得力于词语的锤炼。清人袁枚说过:“一切诗文,总须字立纸上,不可字卧纸上,人活则立,人死则卧, 用笔亦然。”(《随园诗话》)所谓“
学位
深度卷积神经网络(Deep Convolutional Neural Network)被广泛应用于计算机视觉工作,如图像分类、目标检测和语义分割等。相对于传统的机器学习算法,深度学习在性能方面往往更胜一筹,它的成功很大程度上归功于计算资源的快速发展。因此,大多数深度卷积神经网络都需要在GPU(Graphics Processing Unit)上训练和推理,但是GPU处理器的能耗较高,限制了深度卷积