基于卷积神经网络的硬件加速器设计及实现研究

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:echo1210
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
神经网络在机器学习和认知科学领域是一种模仿生物神经网络的结构和功能的数学或计算模型,用于对函数进行估计或近似。至今已有若干种深度神经网络,如卷积神经网络(CNN)、循环神经网络(RNN),应用在计算机视觉、自然语言处理、语音识别与生物信息学等领域并获取了很好的效果,特别是卷积神经网络可以在目标识别、检测和场景理解等任务上达到前所未有的精度。从2012年提出的AlexNet(8层网络)到2015年提出的ResNet(多达152层网络),神经网络的计算复杂度不断提升,远高于传统方法,对计算硬件带来更高要求。
  针对当前终端应用场景下神经网络硬件计算存在的计算量大、带宽要求高、能耗高等问题,为了进一步提高深度神经网络的能效,提高吞吐量、降低功耗,本文从算法和结构上对基于卷积神经网络的硬件加速器ASIC(专用集成电路)设计及实现进行了深入的分析和研究。在提高性能的基础上,通过优化电路结构,控制电路的面积和功耗,达到提高总体的能效等指标。本文的具体研究内容分为以下几个方面:
  (1)首先从神经网络的基本单元——神经元入手,以PCNN(脉冲耦合神经网络)作为数字化实现神经网络的案例,研究基于PCNN模型的神经单元硬件建模,探索神经网络的构成和机制。
  针对图像处理嵌入式系统高性能和低功耗的需求,提出了一种基于两级PCNN算法的图像分割应用的VLSI(超大规模集成电路)实现。该算法中第一阶段是基于简化的PCNN模型以获得区域的种子,第二阶段种子扩张具有相似灰度级别的像素点,实现区域的生长。在这个过程中,PCNN的参数可以自适应调整,以克服参数设置的限制。在硬件实现中,两级网络以流水线的形式进行划分,运用了乒乓存储技术,用寄存器阵列以缓冲实时图像数据的传输。实验结果表明,处理速率可以达到每秒4.0×108次神经元迭代的高吞吐量,比其他文献提升了11%。
  (2)接下来以CNN算法作为切入点,研究基于AlexNet卷积神经网络的硬件加速器ASIC设计。根据AlexNet的运算特点,设计了3×3卷积运算单元、片上缓冲存储结构,优化的并行处理数据流,以及整体的粗粒度空间体系架构,通过减少从片外DRAM中访问数据,从而降低功耗,提高总体能效。
  这一架构的16个3×3卷积运算单元(PE)通过利用本地数据重用,实现了500MHz下峰值性能144GOPS。对AlexNet的卷积层处理达到99.2帧/秒,在500MHz、1.0V下工作时功耗为264mW。与同类文献相比,本文工作实现了3倍的能量效率和3.5倍的面积效率。
  (3)在前面两部分的基础上,针对VGG、GoogLeNet、ResNet等其他主流的CNN神经网络模型的共性加以归纳,设计更为通用、应用范围更广的硬件加速处理器ASIC电路。提出了一个具有24个3×3卷积运算单元阵列的高性能粗粒度空间架构,通过数据寄存器组的数据流设计实现数值有规律的移动,传递到PE中进行计算。针对不同运算或不同大小卷积的情况,由指令发射单元控制各模块协同工作,增强了灵活性和可配置性。此架构的主要优点是每个PE的内部优化了面积,PE的数量便于在进行3×3、5×5、7×7卷积时提高计算效率,以及片上临时存储单元和数据流的设计减少了缓冲区中数据存储的冗余。
  在650MHz、1.0V的条件下,达到峰值性能281GOPS,功耗为859mW。在以下CNN卷积层的吞吐量为:AlexNet上179fps,GoogLeNet上76.6fps,ResNet-34上36.7fps。与同类文献的AlexNet性能相比,本文提出的架构实现了1.7倍的能效,1.7倍至4.5倍的面积效率以及16.4%至23.7%的计算效率提升。
  本文的研究及粗粒度运算单元的硬件结构对于提高卷积神经网络加速器的吞吐量和计算效率具有重要的指导意义。设计完成的几种神经网络加速器硬件电路可以针对不同的应用场景,达到实时处理的性能,具有重要的应用价值和广阔的应用前景。
其他文献
黑胫病(Blackleg)是世界范围的油菜(Brassica napus)真菌病害,其病原菌为Leptosphaeria属的复合种,影响着油菜籽的产量和品质。该病害在澳大利亚、加拿大、欧洲、中国等油菜产区均有发生,制约着油菜产业的发展和国际贸易。目前,防治措施主要包括选育和栽培抗病油菜品种、科学的农艺管理,以及使用化学杀菌剂。甾醇脱甲基酶抑制剂(Steroldemethylation inhibi
羊绒是重要的高端纺织品原材料,随着世界范围内羊绒市场的日益扩大,对羊绒产量及质量的要求也日益提高。绒山羊作为我国优良的畜种,其羊绒品质优良,但多年来在绒山羊选育中为了提高羊绒产量盲目进行杂交,造成山羊平均产绒量和羊绒质量降低、传统良种和改良品种所占比例不高等问题。利用现代生物技术对绒山羊进行分子育种是今后绒山羊育种的重要方向。胸腺素β4具有多种生物学功能,其对毛发生长的促进作用已在很多研究中被证实
学位
骡子为马和驴的杂交后代,属于种间杂交和远缘杂交后代。远缘杂种同近缘杂种相比,除了具有综合父、母双亲的遗传特性外,还能产生重组类型及出现后代性状分离等杂种的基本特征。杂交后代正反交外表和生理特征也存在很多差异,驴骡和马骡也如此。驴骡和马骡外表、性格和生理特征有很大差异,如马骡身高比驴骡高,马骡尾长驴骡短,马骡耳短驴骡长。驴骡力气与耐力不如马骡。驴骡和马骡共有的杂种优势有抗病力强,耐粗饲,长寿等。本研
学位
绒山羊是我国珍贵的家畜遗传资源,其中的阿尔巴斯绒山羊经过长期自然选择和人工选育成为了世界一流的品种,其羊绒在国际上享有“纤维宝石”、“软黄金”的盛誉。然而长期以来,由于没有对该品种形成科学的种质资源保护意识,盲目将当地品种与外来品种杂交,导致种群资源呈现退化趋势。为进一步保护和开发该优良种质资源,利用现代生物育种技术培育优质高产绒量绒山羊,成为了该品种种质资源保护和创新利用的有效方式。毛囊的生长发
学位
CFI ODP(臭氧破坏势)为零、GWP(全球变暖势)低,是近年来作为哈龙(Halon)替代物开发的一种新型灭火剂.由于其温度压力水平适宜,存在作为制冷空调系统中新一代工质的可能.该文着眼于制冷空调系统中的CFCs、HCFCs工质替代,在根据已有PVT实验数据关联适用于CFI的PT状态方程的基础上,考察了CFI的热力学性质、CFI及含CFI的混合工质在制冷工况与空调工况下的理论循环性能.提出了摩尔
学位
污染物NO对环境、气候和人类的健康影响日益严重,成为一个迫切需要解决的问题.火电厂燃煤产生的NO是排放的主要来源.然而人们对NO的生成机理尤其是燃料型NO生成机理及其复杂,至今还不完全清楚.本文对无烟煤、烟煤及水煤浆的燃料氮析出特性和燃料型NO的生成特性进行了深入的研究,为低NO燃烧系统的开发和设计提供理论基础和数据支持.本文对无烟煤,烟煤,水煤浆及黑液水煤浆的燃料氮析出规律进行了实验研究,主要研
学位
近几年来,世界对清洁和可持续能源的需求不断增加,随之而来的是对低成本小型风力发电系统需求的增加,因为小型风力发电机被视为一种经济和灵活的发电解决方案。小型风力发电机的优点是在负荷中心附近发电,因此不需要运行高压输电线路,这非常适合风资源丰富的偏远地区。永磁同步发电机(PMSG)具有转矩大、无需外加励磁电流、具有变速运行能力等优点,因此永磁同步发电机是小型风力发电机的理想选择。此外,外转子永磁同步发
建立合适且准确的三相变压器模型是进行配电网潮流计算的基础,节点导纳矩阵的推导是三相变压器建模的关键。目前,变压器节点导纳矩阵的推导方法以对称分量法和关联矩阵法为主流,对称分量法在进行程序运算时速度较快,但当变压器的三相参数不对称时便不再适用;关联矩阵法对变压器的三相参数是否对称情况没有要求,但当变压器原边绕组或副边绕组的接线方式为中性点不接地星形接线时,由于中性点电压不为零,此时变压器支路电气量与
目前面对新一代微波器件、电路和系统日益增长的模型需求的挑战基于神经网络的微波器件建模技术已被认为是微波计算机辅助设计领域的一种重要工具。人工神经网络模型可以通过训练来学习微波器件和电路的电磁行为。经过训练的神经网络模型由于仿真和优化时运算速度快可以用于更高层级的微波电路和系统设计。本论文的目的是开发一种先进的神经网络建模方法和模型外推技术以高效地生成精度高、稳定性强的微波器件模型。本文所提出的技术
学位
空间激光通信技术作为下一代通信技术,近年来受到了世界各国的广泛关注,并在该研究领域展开了激烈的竞争。目前在空间激光通信研究领域处于领先地位的是美国、欧洲和日本,他们对该领域的研究均已进入了卫星实验阶段,其他国家也在大力发展空间激光通信技术。  利用成熟的地面光纤通信技术来提高空间激光通信系统性能已成为主流选择之一,光放大器和波分复用技术可以有效地提高空间激光通信系统的探测灵敏度和通信数据率。因此,