论文部分内容阅读
随着计算机图形学和集成电路技术的发展,图形处理器(GPU)的研究取得了巨大进步。GPU的硬件结构从固定功能流水线架构发展为大规模并行的统一染色器架构,但核心图形处理算法仍然沿用传统的光栅化方法。光栅化方法速度快有利于实时处理,但对图形细节层次上的高质量渲染,特别是对复杂全局光照的处理还需要进一步提高。光线追踪算法能够获得较好视觉效果,但计算量巨大,现有GPU很难达到实时处理要求。因此研究新的图形处理并行计算架构和关键算法具有一定的科学意义和实用价值。本文针对固定功能流水线GPU设计中的计算效率优化问题,提出了图形处理并行加速结构,建立了仿真模型并流片进行了验证;为解决光线追踪算法的加速问题,提出了一种可重构阵列处理器架构,建立了仿真模型并用实验芯片进行验证;在该架构上实现了KDTree并行构建算法和医学图像分割算法;针对锯齿问题,提出了基于片元细分的反锯齿算法。本文主要创新点和成果如下:研究固定功能流水线GPU的体系结构及图形处理算法,提出了优化的图形处理流水线及并行加速架构。该架构采用光栅化图形处理方法,固定功能超长流水线,具有可配置的并行顶点染色、像素染色和扫描转换处理核心。建立了时钟精确的仿真模型进行架构与算法验证。采用该架构的图形处理器实验芯片已经基于0.13μm CMOS工艺成功流片。为解决光线追踪算法的加速问题,提出了可重构阵列处理器架构(RTGPU)。建立了光线追踪算法模型,优化了光线追踪流水线结构并提出了流水线的硬件映射算法。RTGPU由多个并行的光线追踪处理器核(RTCore)构成,每个RTCore是16*16的处理单元(PE)阵列,并通过16个行控制器动态重构每个PE的功能,16个列控制器管理所有数据,相邻PE之间通过短线互联,共享存储方式进行数据交互,远程PE之间通过路由器进行信息交互。采用该架构的验证芯片已经基于0.13μm CMOS工艺成功流片,通过仿真模型及验证芯片证明了设计的正确性。针对图形处理中的锯齿问题,提出了片元细分的反锯齿算法。该算法对产生锯齿的边界片元进行不断递归细分从而获得精细图形处理效果;对于非边界片元,用采样的中点颜色代替这一区域颜色,从而减少采样点数。该算法分别在光栅化流水线和光线追踪流水线中实现。仿真实验表明,该算法与多采样反锯齿算法效果一致,但减少了采样点个数,提高了计算效率。基于本文提出的阵列处理器架构,为解决构建KDTree效率较低的问题,采用多流水线并行方式,实现了KDTree的并行构建算法。采用并行SAH计算代价函数来确定分割面,采用并行最大投影算法来确定分割轴,并使用图元标号存储结构代替图元存储结构,减少了图元交换的数据移动量,提高了建树效率。仿真实验表明,本算法建树效果较好且效率较高。基于本文提出的阵列处理器架构,为解决交互式医学图像分割的计算效率问题,将基于置信规则的区域生长算法并行化并映射到该架构上进行算法加速。仿真实验表明,算法进行并行加速后,可获得较高加速比。