论文部分内容阅读
内存墙、I/O墙、功耗墙、复杂性墙、编程墙、扩展性墙是高性能计算机的发展及其应用的主要瓶颈。以高性能、可编程、可移植、稳定性为特征的高效能技术是高性能计算机研究的新方向。本文结合曙光5000A百万亿次高性能计算机的设计与实现,对大规模高性能计算机如何降低能耗、提升效能、并减少管理的复杂度等关键技术进行了研究。本文在功耗管理、应用加速、自主管理、效能评价指标,以及曙光5000A百万亿次高性能计算机的设计与实现方面开展研究工作,创新性成果如下:
1、提出了一种基于遗传算法的功耗管理方法,该方法采用作业队列的能效比作为调度因素,与面向资源效率的传统作业调度算法相比,在确保提升资源利用率、减少资源碎片、提升作业吞吐率、减少饥饿作业的前提下,大幅提升了系统的能效比。在实际应用环境中的测试表明,能有效降低系统能耗。
2、设计并实现了一种分布式层次化的自主管理机制,该机制中采用的触发式Bully选举算法具有较高的执行效率,并能够适应节点故障、链路故障和节点变化等情况,具有一定的容错能力和动态特性。该机制支持在不停机条件下新增设备,修改特征参数,支持引入新的规则和进行启发式推理,从而提高了管理效率和故障定位的准确性。
3、设计并实现了一种基于CBF哈希过滤的五元组IP包分类算法,在网络安全应用加速卡中进行了有效实现,加速了TCP/IP协议栈的处理。设计并实现了一个DGEMM应用加速器,基于2颗Xilinx Virtex V350MHz FPGA可实现44.8GFLOPS的浮点计算性能。
4、设计并实现了一种高密度可扩展的计算节点结构,包括四路SMP的刀片设计,可实现多功能I/O扩展的PCI-E扩展模块的设计,以及管理模块、互连网络模块、机箱结构的设计,并应用于曙光5000A高性能计算机。本文还给出了曙光5000A的性能评测结果。
5、提出了一个相对效能评价指标RPI,该指标综合考虑了系统采购成本、运营维护成本、关键应用性能、代码编程难易度、管理复杂度等诸多因素,有效地解决了各参数直接测量值量纲不同的问题,更具合理性和测量的简洁性。