论文部分内容阅读
连续波体制的雷达因其结构紧凑、测速无模糊、测量精度高和易于数字实现等优点被广泛运用到现代的靶场测量中。实时高精度参数分析和多目标测量等需求使得连续波雷达用于事后数据分析的信号分析器的数据分析量较以往有了很大的提高,传统的单纯依靠CPU进行计算的模式已难以满足靶场测量的需求。针对当前靶场的测量需求,本文提出采用CPU+GPU的异构模式来实现连续波雷达的信号分析器,将信号分析器中需大量运算的频谱分析和谱峰搜索的运算移植到具有强大并行计算能力的GPU上来运算,极大地改善了连续波雷达的实时分析的人机环境,提高了该雷达的数据分析速度,缩短了高精度测量数据产品的生产延迟。本文的主要研究内容包括:1、对基于GPU的Stockham的FFT算法的并行化移植进行了讨论和研究。经典的Cooley-Tukey的算法需要位倒序且读写数据不连续,降低了其在GPU上的实现效率。本文采用顺序输入顺序输出的Stockham算法,优化了数据存储与处理能力安排,充分发挥了GPU平台的高存储带宽的效能和高并行计算能力,并测试了该实现的性能。2、对Stockham算法基于GPU的逐级推进和矩阵转置的两种并行运行的方式进行了讨论和研究。逐级推进的方式通过将每层中的蝶形运算映射到成百上千个线程上进行运算,以充分发挥GPU的强大并行计算能力,但由于其每次都要对全局存储器进行访问,没有充分发挥GPU的高存储带宽的效能。后者在前者优化讨论的基础上通过将大点数的FFT分解成多批次小点数的FFT运算进一步提高了GPU存储器利用的效率,有效的解决了计算能力与存储带宽匹配的问题。3、对基于GPU的谱峰搜索算法的并行化移植进行了研究。谱峰搜索归结来说就是一个求解最大值的问题,可以利用并行算法中的任务分而治之的思想,利用树形归约的方法来对谱峰搜索的串行算法进行并行度分解。本文在初步实现基于GPU的谱峰搜索并行算法后,又针对此平台从线程数量、共享存储器访问优化、展开后续循环等方面对该算法进行优化,取得了较好的加速效果。4、对信号分析器的架构和软件处理流程进行了改进。针对GPU和CPU不同的计算特性进行优化,在数据量较少时依然采用CPU进行运算,数据量较大时将频谱分析和谱峰搜索移植到GPU内进行运算,有效缩短了系统的整体响应时间。