论文部分内容阅读
随着高通量应用的迅速兴起,高通量处理器成为了新型处理器结构的研究热点,同时这也给传统的处理器结构设计带来了巨大挑战。与追求Linpack速度的传统高性能应用不同的是,高通量应用追求的主要目标是高通量,即单位时间内处理尽可能多的并发任务。随着互联网、云计算、移动云服务的不断发展,高通量应用的并发用户将从目前的数千万发展到数亿规模,数据规模也将从目前的10PB(1016B)增加到海量的EB(1018B)级。一方面,常规的多核芯片已无法满足及时处理如此大规模的数据,必须通过增加核数提高处理器数据处理能力;另一方面,传统片上互连在众核模式下存在网络直径增加、网络性能急剧下降的问题,同时当芯片上集成众多的处理核时,功耗问题便成为处理器继续发展的主要障碍之一。首先,大规模片上网络结构平均寻径距离的增加,引起数据包传输时延迅速上升,高通量应用的请求密集型特征加重了对片上网络进行能耗优化的需求;其次,高通量处理器众核结构在单芯片上集成更大规模晶体管,不可避免会遭遇“利用率墙”或“能效墙”(Utilization Wall/Transistor Utility Economics Wall)问题,需要给出能耗优化下的最佳核数-频率配置;最后,针对高通量应用的不同加速算法,可通过异构加速部件独立于处理器核进行复杂模式的数据传输和处理,对异构加速部件进行能耗优化研究就显得尤为必要。 针对高通量众核处理器研究与设计中面临的以上能耗优化问题,本文通过分析高通量应用的通信特征,针对大规模众核结构的片上网络结构,提出了Fan型拓扑结构及子域环优先路由算法,并建立双向可变虚通道机制,在优化片上通信性能的同时降低了片上网络功耗;针对高通量处理器众核架构,基于求解非线性规划问题最优解的可行方向法,在核数-频率空间上,以性能相关的时间T作为约束条件搜索其最低能耗的核数-频率配置最优解;针对高通量处理器的异构加速处理单元,通过对与能耗相关的带宽划分方法的研究,分析带宽资源的不同分配方式对异构众核处理单元总能耗的影响,进而找出高能效的带宽划分方式。本文的主要创新点及贡献包括: 提出面向高通量处理器的低功耗片上网络Fan-NoC。针对高通量应用数据密集、吞吐量大且并发度高的特征,设计了适用于高通量处理器的低功耗片上网络拓扑结构—Fan型拓扑。Fan型拓扑是一个双环分级可递归结构,便于规模扩展。与传统的众核片上网络拓扑结构相比,其路径多样、网络直径小、平均寻径距离短,保证了片上通信的高并发和实时性。在Fan型拓扑的基础上,设计了支持双向可变虚通道的路由器微结构和子域环优先路由算法,提高片上网络吞吐率的同时有效地降低了片上网络的功耗。实验表明,与传统的Mesh结构相比,处理典型高通量应用时,Fan型拓扑结构的平均吞吐率提高了32.2%;与传统的双环结构相比,Fan型拓扑结构的平均吞吐率提高了28.6%。Fan-NoC的功耗与典型的Mesh结构和双环结构相比,分别降低了29.3%和16.6%。 提出EOFDM(Energy-efficient Optimization Based on Feasible Direction Method),即面向高通量处理器众核架构的最低能耗搜索方法。针对高通量计算系统的特征之一,即在一定时间约束内完成更多任务的处理,以性能相关的时间T作为约束条件,基于求解非线性规划问数-频率空间上搜索最优解,与传统方法相比EOFDM可在核数-频率两个维度上同时降低搜索空间,具有更快的收敛速度和更低的能耗开销。实验以典型高通量应用及传统并行程序集PARSEC2.1为基准测试程序,实验表明,对于高通量应用,EOFDM与当前最优的启发式爬山法相比,在迭代次数、执行时间和能耗开销方面分别降低了39.2%,45.3.9%和48.1%;对于传统的PARSEC2.1,EOFDM与当前最优的启发式爬山法相比,在迭代次数、执行时间和能耗开销方面分别降低了38.6%,43.9%和46.7%。 提出基于能效优化的异构众核处理单元带宽分配模型。针对高通量处理器的异构加速处理单元的能效优化问题,从对吞吐率和能效影响的主要因素之一,访存带宽的分配方式进行分析,研究不同分配方式下导致能效变化的主要因素,包含有从带宽划分得到的性能收益高低主要取决于不同结构的处理单元对因争用带宽导致的对访存排队延迟的敏感高低,不同异构单元的cache失配率比值和可用的带宽峰值大小,进而建立基于能效优化的异构众核单元带宽分配模型。实验表明,异构处理单元能否从带宽划分中得到性能增益主要取决于不同处理单元的cache失配率之比和可用峰值带宽的紧张程度,同时可以采用cache失配率之比和可用带宽的峰值来描述基于最优性能和基于最优能效的带宽划分方式,从而获得带宽分配模型的解析解,与带宽的自然划分方式相比,异构众核处理单元能够从带宽划分中得到能效收益平均提高46.3%。