数据流加速器上stencil计算的自动优化研究

来源 :中国科学院大学 | 被引量 : 0次 | 上传用户:gaylene
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
数值模拟是计算科学的重要组成部分,基于结构化网格的离散方法在数值计算方法中占有重要的位置,其热点计算stencil计算是高性能计算领域的七个主要模式之一。stencil计算的计算访存比低,主存带宽受限严重。学术界和产业界研制了多款面向HPC的众核加速芯片,但是均存在能耗高,绝对性能有限的问题。数据流体系结构因为控制结构简单、数据通信的速度快、可支持超长流水线等优点,成为解决科学计算能效问题的一种令人期待的解决方案。  中科院计算所正在研制具有新型结构的SPU众核处理器,该处理器具有阵列结构,混合了静态数据流、多线程、SIMD三种并行模式,并向用户暴露了复杂的层次存储结构。如何把用户程序转化为指令数据流图,并优化地映射到SPU阵列结构上是编程环境必须解决的问题,也是SPU结构评估的基础。  为了简化SPU加速器上的用户编程、提高SPU的硬件利用率,本人参与设计和实现了一个针对SPU的、面向规则计算的代码生成和优化的编译器。  本文的主要贡献如下:  1、在变量分析的基础上实现了SPU数据布局优化,使程序指令数目减少了30%以上。  2、建立了简洁高效的指令数据流图的中间表示。该中间表示便于功能扩展、并便于移植到其他的编译平台。  3、设计和实现了针对单基本块循环体的数据流图生成、优化映射和自动代码生成。重点设计了,AST到指令数据流图的自动生成算法,基于改进的关键路径优先的启发式数据流图优化映射方法。  4、用5个典型程序评估了编译器代码优化的效果。测试结果,给出了硬件指令的出度需求,表明数据布局优化可以减少指令数30%以上,循环展开在提高资源利用率的同时最多可减少指令14%,优化映射算法则最多可减少40%的通信量。
其他文献
近年来,日益严峻的公共安全形势有力地推动了智能视频监控技术的发展和应用。人的重现检测作为智能视频监控带有反馈机制的、组合式的分层框架中中间层的重要组成部分,有着深远
中医文化源远流长,荟萃几千年来众多中医学者的辛勤与智慧,积累了大量的中医文献资料和数据。如何应用现代科学技术手段,为中医理论的发展提供支持成为目前亟需解决的重大问
密码技术是信息安全技术的核心,包括密码设计和密码分析两个方面。在密码的设计与分析中,存在着许多复杂的搜索和优化问题。这些问题的提出和解决往往直接关系到密码体制和密码
在集成电路生产过程中,工艺偏差将使得一些芯片不可避免地产生工艺缺陷从而引起功能错误。为了保证产品质量,芯片测试始终占据着无可动摇的重要地位。随着特征尺寸的减小和设计
近年来,Web Services及其相关的SOA(Service—Oriented Architecture,缩写为SOA)技术获得广泛应用,通过集成以Web Services为代表的软什服务来构造面向服务的软件系统(Service—
随着互联网的快速发展,Web数据规模以几何级数增长。大规模Web主题分析,是面向海量Web数据,通过主题发现、综合摘要等算法,提取关键主题词和摘要段落,对Web大数据进行整体把握的过
随着电子信息技术和计算机网络的飞速发展,系统安全问题受到越来越多的重视。网络攻击、蠕虫病毒和黑客等名词已经频繁地出现在各种杂志和视频中。由于程序设计语言本身的缺陷
随着无线网络和移动通信技术的发展,手机已经成为集上网、游戏、录音、摄像、存储等功能于一体的视听终端。同时手机向智能化方向发展,导致潜在的移动网络安全问题逐渐显露。
无线传感器网络是由许多具有低功率无线收发装置的传感器节点组成,它们从不同环境区域监测收集周边环境信息并传送到基站进行处理。自传感器网络研究起步以来,传感器节点的能量
软件开发是智力密集型产业,人力资源在软件开发中扮演着极其重要的角色,不同的人在相同的设备上,可以生产出质量和功能完全不同的产品,其生产效率甚至可以相差数十倍,Boehm的COCOM