论文部分内容阅读
忆阻突触阵列的存算一体化特点可以有效地解决传统人工神经网络硬件实现所面临的冯·诺依曼瓶颈问题。交叉阵列天然地实现了向量矩阵乘法,为神经网络提供巨大的计算并行性,显著提高数据吞吐量,从而实现高效的硬件加速。
通过利用输入图像的空间结构,卷积神经网络比其他神经网络结构(如全连接神经网络)更适合视觉任务。另外,非全连接和权重共享的网络结构使得卷积神经网络所需的突触数量要少得多,可以以更少的硬件开销实现模式识别。
现阶段研究中卷积神经网络常利用理想的突触行为来进行信息处理,但是实际的忆阻突触行为表现出不可避免的非理想因素,包括有限的电导状态(Nstate)、电导分布的非对称和非线性、器件的不一致性等。所有这些因素可能会降低网络的学习和推理性能。
针对上述关键问题,首先本文从卷积神经网络入手,基于实验所测得的两种典型的TiN/LiSiOx/Pt和TiN/HfO2/Ti忆阻器的电学特性利用MATLAB平台编写了忆阻卷积神经网络代码,根据忆阻阵列的特点对卷积神经网络进行了相应的硬件部署设计,以达到高度并行化,从而实现硬件加速。
提出了一种将理想卷积神经网络的模拟权重映射到忆阻突触器件分立且有限的电导状态的量化方法,并针对相同的量化方法提出了不同的量化训练方法。基于MNIST手写字体任务,仿真结果表明在线量化训练方法需要的Nstate要多于离线量化训练方法,但其能进行信息的实时处理。
然后量化了上述提到的几种非理想特性,并全面研究了它们对卷积神经网络性能的影响。仿真结果表明,可用的电导状态、非对称的电导分布的非线性和器件循环与循环间的不一致性是影响网络学习准确性的关键因素,而对称的电导分布的非线性和器件与器件间的不一致性的影响较小。
最后,针对上述影响学习准确性的关键因素提出了三种缓解策略:1)限制权重范围以提高Nstate的利用率;2)采用所提出的“with-read”更新方案以减轻非对称的电导分布的非线性的影响;3)每个卷积核值使用多个忆阻器来实现,以减轻器件循环与循环间的不一致性的影响。将所有的措施应用于所编写的忆阻卷积神经网络程序时,基于TiN/LiSiOx/Pt和TiN/HfO2/Ti器件的网络识别准确性均得到了极大的提高,分别从~86.69%上升到~95.25%和~93.54%上升到~96.81%。
本文的工作将为基于忆阻器阵列的卷积神经网络的硬件实现和优化提供有价值的指导。
通过利用输入图像的空间结构,卷积神经网络比其他神经网络结构(如全连接神经网络)更适合视觉任务。另外,非全连接和权重共享的网络结构使得卷积神经网络所需的突触数量要少得多,可以以更少的硬件开销实现模式识别。
现阶段研究中卷积神经网络常利用理想的突触行为来进行信息处理,但是实际的忆阻突触行为表现出不可避免的非理想因素,包括有限的电导状态(Nstate)、电导分布的非对称和非线性、器件的不一致性等。所有这些因素可能会降低网络的学习和推理性能。
针对上述关键问题,首先本文从卷积神经网络入手,基于实验所测得的两种典型的TiN/LiSiOx/Pt和TiN/HfO2/Ti忆阻器的电学特性利用MATLAB平台编写了忆阻卷积神经网络代码,根据忆阻阵列的特点对卷积神经网络进行了相应的硬件部署设计,以达到高度并行化,从而实现硬件加速。
提出了一种将理想卷积神经网络的模拟权重映射到忆阻突触器件分立且有限的电导状态的量化方法,并针对相同的量化方法提出了不同的量化训练方法。基于MNIST手写字体任务,仿真结果表明在线量化训练方法需要的Nstate要多于离线量化训练方法,但其能进行信息的实时处理。
然后量化了上述提到的几种非理想特性,并全面研究了它们对卷积神经网络性能的影响。仿真结果表明,可用的电导状态、非对称的电导分布的非线性和器件循环与循环间的不一致性是影响网络学习准确性的关键因素,而对称的电导分布的非线性和器件与器件间的不一致性的影响较小。
最后,针对上述影响学习准确性的关键因素提出了三种缓解策略:1)限制权重范围以提高Nstate的利用率;2)采用所提出的“with-read”更新方案以减轻非对称的电导分布的非线性的影响;3)每个卷积核值使用多个忆阻器来实现,以减轻器件循环与循环间的不一致性的影响。将所有的措施应用于所编写的忆阻卷积神经网络程序时,基于TiN/LiSiOx/Pt和TiN/HfO2/Ti器件的网络识别准确性均得到了极大的提高,分别从~86.69%上升到~95.25%和~93.54%上升到~96.81%。
本文的工作将为基于忆阻器阵列的卷积神经网络的硬件实现和优化提供有价值的指导。