论文部分内容阅读
从今年的中国TOP100榜单中,我们可以看到,异构计算已经成为高性能计算向前发展的必经之路。排名前三的机器全部是CPU GPU异构集群,前10名中有5台是CPU GPU的异构集群,这已经充分说明了异构计算对高性能计算的重要意义。会上,来自多家高校和企业的专家学者也都在主题演讲中谈到了异构计算相关的优化、算法等话题。
“毫无疑问,中国确实是最早使用GPU的国家之一,而且是首先大规模组建GPU CPU的异构集群的国家之一。在其他国家,往往是采用小规模安装GPU,并逐渐将其融入已有的CPU集群中的方式进行异构系统的建设。”英伟达公司GPU计算事业部总经理Andy Keane对中国异构系统的快速发展给出了较高评价。
Andy Keane介绍,英伟达很早就与中科院在异构计算方面进行合作。中科院也开发了很多在异构系统上的应用。
“在高性能计算主要的几种应用中,GPU都可以取得很好的加速比。”在大会主题演讲中,英伟达公司高级工程师王鹏介绍。不过,他也指出,在某些特定算法上,GPU计算的效率还有很多提升的空间。
对此,来自CAPS的Francois Bodin表示,对异构系统的优化要着眼于以下几个方面:在初始化和释放GPU时减少资源损耗,降低数据传输的时间,优化GPU kernel函数的性能,以及充分发挥CPU的作用。
“高性能系统的实际运行效率是由它所要运行的应用所决定的。”Andy Keane表示,对于高性能计算机来说,不同的应用需要采用不同的设计方式,在系统架构、CPU和GPU的配比、连接方式等方面都会有所变化。有些高性能计算机,如今年TOP100排行第三名的来自中科院过程所的Mole-8.5集群就是专门针对分子动力学和离子仿真等应用而设计的,在执行这些应用时可达到80%甚至90%以上的效率。但是,其执行Linpack的效率就相对低一些了。“不过,目前大家没有更好的衡量高性能计算的方式,Linpack已经是不错的能够提供比较的方式了,大家也认可采用Linpack作为排名的依据了。”Andy Keane说。
为了进一步发挥GPU的效能,很多来自高校的学者也进行了研究。来自北京大学的陈一就介绍了针对GPU集群的统一编程工具PARRAY。
“未来,编程方式会是高性能计算,尤其是异构系统面对的挑战之一。也许CUDA是一个很好的选择,不过我们也在考虑其他的语言。另外,为了平衡能耗和高性能之间的关系,在计算系统的架构上也需要进行改善,这也是高性能计算面临的挑战之一。”Andy Keane说。今年,TOP100排名第一的天河一号虽然采用了异构架构以提升能效,其功耗还是达到了4.04MW。降低能耗是高性能計算面临的难题。
“毫无疑问,中国确实是最早使用GPU的国家之一,而且是首先大规模组建GPU CPU的异构集群的国家之一。在其他国家,往往是采用小规模安装GPU,并逐渐将其融入已有的CPU集群中的方式进行异构系统的建设。”英伟达公司GPU计算事业部总经理Andy Keane对中国异构系统的快速发展给出了较高评价。
Andy Keane介绍,英伟达很早就与中科院在异构计算方面进行合作。中科院也开发了很多在异构系统上的应用。
“在高性能计算主要的几种应用中,GPU都可以取得很好的加速比。”在大会主题演讲中,英伟达公司高级工程师王鹏介绍。不过,他也指出,在某些特定算法上,GPU计算的效率还有很多提升的空间。
对此,来自CAPS的Francois Bodin表示,对异构系统的优化要着眼于以下几个方面:在初始化和释放GPU时减少资源损耗,降低数据传输的时间,优化GPU kernel函数的性能,以及充分发挥CPU的作用。
“高性能系统的实际运行效率是由它所要运行的应用所决定的。”Andy Keane表示,对于高性能计算机来说,不同的应用需要采用不同的设计方式,在系统架构、CPU和GPU的配比、连接方式等方面都会有所变化。有些高性能计算机,如今年TOP100排行第三名的来自中科院过程所的Mole-8.5集群就是专门针对分子动力学和离子仿真等应用而设计的,在执行这些应用时可达到80%甚至90%以上的效率。但是,其执行Linpack的效率就相对低一些了。“不过,目前大家没有更好的衡量高性能计算的方式,Linpack已经是不错的能够提供比较的方式了,大家也认可采用Linpack作为排名的依据了。”Andy Keane说。
为了进一步发挥GPU的效能,很多来自高校的学者也进行了研究。来自北京大学的陈一就介绍了针对GPU集群的统一编程工具PARRAY。
“未来,编程方式会是高性能计算,尤其是异构系统面对的挑战之一。也许CUDA是一个很好的选择,不过我们也在考虑其他的语言。另外,为了平衡能耗和高性能之间的关系,在计算系统的架构上也需要进行改善,这也是高性能计算面临的挑战之一。”Andy Keane说。今年,TOP100排名第一的天河一号虽然采用了异构架构以提升能效,其功耗还是达到了4.04MW。降低能耗是高性能計算面临的难题。