面向深度学习的FPGA硬件加速平台的研究

来源 :电子科技大学 | 被引量 : 12次 | 上传用户:wyslymx2
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年,在全球都刮起了人工智能的热潮,人工智能的技术不仅在学术界中被广泛研究,在工业界也被深度开发后大量投入商用,为国民经济带来了巨大的效益。深度学习是人工智能领域中最受关注的一个技术,它是基于人类认知事物时大脑的生物学原理而提出的对大规模的数据进行学习的一套算法模型,在计算机视觉、自然语言处理、语音识别等领域获得了极佳的效果。最早,人们使用CPU来执行深度学习算法,但CPU无法高效地实现包含大量数值计算的深度学习算法。后来,人们开始将GPU设备引入到深度学习中,GPU包含大量的计算核心,很适合加速深度学习算法中的一些并行度很高的模型,比如卷积神经网络。但GPU存在能耗高的缺点,如果被大规模部署,则违背了数据中心绿色节能的发展趋势。再后来,FPGA作为一种新兴的加速设备,依靠它低功耗、可重配置等优点,逐渐引起了大量学者的关注。在此背景下,本文将结合CPU和FPGA特点,把CPU作为控制主机,FPGA作为加速设备,搭建了一个主-从式架构的硬件加速平台。这个平台用于加速深度学习算法中的两个重要的模型,一个是循环神经网络模型,另一个是卷积神经网络模型,前者用于解决时间序列上的模式识别问题,后者用于实现二维空间上的特征识别问题。针对循环神经网络,我们采取数据和任务并行结合的思想,为训练过程设计了通用的并行加速方案,尝试探究隐藏层神经元数量对加速性能的影响,利用异构并行编程语言OpenCL编写在FPGA上执行的内核程序。实验发现,随着隐藏层神经元数量的增加,FPGA加速的性能逐渐接近于CPU,而FPGA的能效比CPU和GPU都高;针对卷积神经网络,类似地,我们为训练和推理两个阶段设计了通用的并行加速方案,实验表明,在MNIST数据集上,在相同的正确率下,FPGA比CPU有更短的推理时间,能效接近CPU的10倍且略高于GPU。在CIFAR-10数据集上,FPGA的加速效果和能效则介于CPU和GPU之间。在基于通道结构的卷积神经网络推理阶段加速实验中,该方案下FPGA的推理时间也略低于通用加速方案的推理时间。因此,本文利用FPGA实现的通用并行加速方案,能在不降低正确率的前提下,完整地加速深度学习算法中的训练和推理两个过程,而基于通道结构的并行加速方案比起通用并行加速方案能在推理过程中起到更好的加速效果。
其他文献
我们正在创造的中国博雅教育传统是植根于中国数千年文明传统的土壤上,同时又吸收了西方文明的精华所形成。
随着网络的日益普及,多媒体辅助教学已成为现代化教育中的一种有效手段,恰当地使用多媒体教学,能利用图形、图像、文本、声音、动画等多种媒体信息刺激学生的感官,通过形象生动的
初中学生的智力水平正处于形象思维阶段,从他们的心理状态来说,他们的学习活动最容易被兴趣左右,他们的思维能力、注意力、观察力和记忆力都与兴趣紧密相连。而初中物理知识又以
课堂教学有效性是指通过课堂教学活动学生能够在学业上有收获、有提高、有进步。换句话说就是:在认知上从不懂到懂,从少知到多知,从不会到会;从不感兴趣到感兴趣,从不喜欢到喜欢,从
现代教育技术飞速发展,为课堂教学手段现代化提供了强有力的物质基础。运用现代教育技术手段能把教学中一个个比较抽象的事物具体化,能充分发挥学生个性差异,摆脱时间和空间的限
文章结合本人多年的工作实践就泵送混凝土裂缝产生的原因进行了分析,并提出具体可行的防治措施。
前言針灸門診部成立到现在,雖然只有短短的七個月時間,由於上級正確領導和幹部努力,使門診部的業務日有改進,針灸療法不僅在武漢市羣眾中已樹立了很好的威信,(表现在意見簿上
期刊
文献所谓“襄公淫乱,姑姊妹不嫁”以及桓公“妻姑姊妹”不能够成立,齐襄公、桓公的淫乱属于婚外性关系而非兄妹血缘婚。春秋齐国社会已不承认并且谴责非婚乱伦关系,故不可能
案例教学是被众多中医院校采用的教学法,但学生往往局限在对案例的感性认识层面。PBL教学中,学生能动地参与分析病案中的问题,真实感受医生面对不同问题应该采取的相应措施。
重庆市教委周旭主任在《深化“卓越课堂”建设要有新思维》(《今日教育》2014年第5期)一文中指出,当前课堂教学改革要坚持以人为本的原点思维、多元建模的生态思维、聚合资源的