论文部分内容阅读
随着人工神经网络研究的进一步发展,深度学习技术为现代社会的许多方面提供了便利。基于人工神经网络的深度学习系统在现代生活中几乎随处可见:比如用于识别图像中的对象,将语音转换为文本,将新闻项目、帖子或产品与用户兴趣相匹配等,全面智能化了人们的生活。尤其是基于递归神经网络(Recurrent Neural Network,RNN)的系统,得益于它可以同时在空间和时间上传递信息的特点,在处理序列信号——如语音识别时比其他神经网络结构更有优势。但是,随着递归神经网络朝着识别更精确、功能更强大、结构更复杂的方向发展,网络规模也随之越来越大。这种庞大的模型既是计算密集型又是内存密集型,在片上运行这些模型将导致极高的能耗,严重影响了递归神经网络加速器的能效。 本文以递归神经网络算法为研究基础,高能效的递归神经网络硬件加速器为研究目标。针对递归神经网络规模不断扩大、模型参数越来越多引起的计算和存储开销增加的问题,从算法调度和硬件架构两个方面展开了下述几项工作以提高递归神经网络加速器的能效:一、分析了递归神经网络算法的计算流程和核心算子,对网络规模、参数分布和计算类型等进行了定量分析,并指出乘法能耗是计算能耗的主要来源,为后续的网络参数压缩和近似乘法计算电路设计奠定了基础;二、结合工作一中的参数分布情况实现了基于剪枝和混合量化的精度自适应网络参数压缩方法,通过网络剪枝减少冗余的计算和存储开销,通过参数量化降低数据位宽从而降低单位操作的能耗,既可以满足不同网络和不同应用场景对计算精度的不同要求,也可以在精度要求不高的情况下降低能耗,实现高能效的目标。并设计了相应的参数存储和调度方案,不仅大幅度减少了计算量和存储开销,而且提高了数据重用率,可以在硬件实现的时候降低访存能耗;三、针对工作一中乘法计算能耗开销大的问题,设计了精度自适应的高能效近似乘法计算电路及加速器阵列结构,并结合工作二中的混合量化方案提出加速器阵列的自适应电压-精度缩放方法,还设计了加速器计算阵列自适应电压产生电路,在输入操作数位宽改变导致计算单元延时发生变化时,提供适当的参考电压以最大程度减少时序余量的浪费,节约电路能耗,实现高能效的目标。 实验结果表明,在TSMC45nm工艺下,主频为200MHz时,针对不同的递归神经网络模型,本文所设计的加速器可以实现4-16bit数据位宽计算。其中,数据位宽为16bit时,电路工作在1.1V电压下,峰值性能为102.4GOPs,功耗为166.8mW,能效为0.6TOPs/W;数据位宽为4bit时,电路工作在0.8V电压下,峰值性能不变,功耗为38.4mW,能效为2.7TOPs/W。其能效达到其他递归神经网络加速器的2.5倍以上。