基于网络压缩和电压-精度缩放的高能效RNN加速器设计

来源 :东南大学 | 被引量 : 1次 | 上传用户:a1218616
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着人工神经网络研究的进一步发展,深度学习技术为现代社会的许多方面提供了便利。基于人工神经网络的深度学习系统在现代生活中几乎随处可见:比如用于识别图像中的对象,将语音转换为文本,将新闻项目、帖子或产品与用户兴趣相匹配等,全面智能化了人们的生活。尤其是基于递归神经网络(Recurrent Neural Network,RNN)的系统,得益于它可以同时在空间和时间上传递信息的特点,在处理序列信号——如语音识别时比其他神经网络结构更有优势。但是,随着递归神经网络朝着识别更精确、功能更强大、结构更复杂的方向发展,网络规模也随之越来越大。这种庞大的模型既是计算密集型又是内存密集型,在片上运行这些模型将导致极高的能耗,严重影响了递归神经网络加速器的能效。  本文以递归神经网络算法为研究基础,高能效的递归神经网络硬件加速器为研究目标。针对递归神经网络规模不断扩大、模型参数越来越多引起的计算和存储开销增加的问题,从算法调度和硬件架构两个方面展开了下述几项工作以提高递归神经网络加速器的能效:一、分析了递归神经网络算法的计算流程和核心算子,对网络规模、参数分布和计算类型等进行了定量分析,并指出乘法能耗是计算能耗的主要来源,为后续的网络参数压缩和近似乘法计算电路设计奠定了基础;二、结合工作一中的参数分布情况实现了基于剪枝和混合量化的精度自适应网络参数压缩方法,通过网络剪枝减少冗余的计算和存储开销,通过参数量化降低数据位宽从而降低单位操作的能耗,既可以满足不同网络和不同应用场景对计算精度的不同要求,也可以在精度要求不高的情况下降低能耗,实现高能效的目标。并设计了相应的参数存储和调度方案,不仅大幅度减少了计算量和存储开销,而且提高了数据重用率,可以在硬件实现的时候降低访存能耗;三、针对工作一中乘法计算能耗开销大的问题,设计了精度自适应的高能效近似乘法计算电路及加速器阵列结构,并结合工作二中的混合量化方案提出加速器阵列的自适应电压-精度缩放方法,还设计了加速器计算阵列自适应电压产生电路,在输入操作数位宽改变导致计算单元延时发生变化时,提供适当的参考电压以最大程度减少时序余量的浪费,节约电路能耗,实现高能效的目标。  实验结果表明,在TSMC45nm工艺下,主频为200MHz时,针对不同的递归神经网络模型,本文所设计的加速器可以实现4-16bit数据位宽计算。其中,数据位宽为16bit时,电路工作在1.1V电压下,峰值性能为102.4GOPs,功耗为166.8mW,能效为0.6TOPs/W;数据位宽为4bit时,电路工作在0.8V电压下,峰值性能不变,功耗为38.4mW,能效为2.7TOPs/W。其能效达到其他递归神经网络加速器的2.5倍以上。
其他文献
学位
混沌现象是确定性非线性系统中出现的一种类似随机的现象。混沌系统产生的混沌序列具有复杂性、随机性、难以分析和预测性,具有对初始条件和混沌参数非常敏感性。因此,混沌系统
太赫兹(THz)成像以其较低的光子能量和较高的穿透能力,在医学检查、安全检测、环境监测和空间遥感等方面展现出巨大的前景。连续THz波成像系统虽不具备脉冲THz波的光谱成像能
随着通信与多媒体技术的发展,人们对处理器性能提出了更高的要求。但是单核处理器由于功耗及复杂度的限制难以满足日益增长的应用需求。随着集成电路制造工艺水平的迅猛提高,
秀丽线虫(Caenorhabditis elegans)精子细胞由于其结构简单、功能单一成为研究细胞极性建立和细胞定向运动机理的模式材料。减数分裂产生的精子细胞必须经过精子激活过程才能完
基于边缘技术的多普勒测风雷达在当今世界的地位日趋重要。风场测量精度是每一个雷达系统的重要技术参数。本课题重点研究边缘技术测速系统精度的提高,首先是基于实验室配合
学位
本文通过对荣华二采区10
期刊
脑卒中等中枢损伤导致神经细胞死亡、组织破坏、神经功能永久性缺失,是长期困扰生物医学界的一大难题,目前尚无有效治疗方法。中枢神经损伤难以修复的原因是神经细胞难以分裂
热泵技术就是一种以消耗少量电能或燃料能为代价,将大量无用的低温热能变为有用的高温热能的技术,可以达到节约能源的目的。研究和开发热泵技术对人类的发展具有十分重要的意义