NUMA架构敏感的MPI集合通信性能分析与优化

来源 :中国科学院研究生院 中国科学院大学 | 被引量 : 0次 | 上传用户:QQ359780695
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
当今的超级计算机系统都具有显著的层次性:节点间的网络互连拓扑结构如胖树有不同交换机跨度的延迟,节点内一般是多个NUMA结构的多核处理器。计算机的体系结构的发展已明显加剧了超级计算机结点内的并行度,节点内的处理器数、核数的迅速增加导致了通信、内存访问延迟的明显的层次性。   通过考虑硬件拓扑结构来优化通信性能是一种常见并且有有效的手段,利用结点间的层次性即网络拓扑结构来优化MPI集合通信一直是并行计算的研究热点,并且主流MPI的实现已经考虑了结点间的层次性。然而到目前为止结点内的层次性优化工作并不多见,MPI主流算法都假设结点内的核间通信延迟是一致的,并没有考虑结点内的层次性。   MPI集合通信操作应该自动获取结点内的拓扑结构并作出相应的优化。为此,这篇论文首先提出了一个基于NUMA结构的性能分析模型并利用该模型优化MPI集合通信的性能。同时,这篇论文评估了AMD和Intel两种多核平台下不同通信模式的MPI集合通信的性能,性能评估工作显示了不同算法和拓扑结构的选择可以获取明显的性能提升:短消息的MPI_Bcast在Intel平台上可提升76.5%,AMD平台上可提升14%;短消息Allgather可提升48.5%(Intel平台),18.3%(AMD平台);短消息Alltoall可提升12%(Intel),3%(AMD)。   通过分析节点内层次性对MPI集合通信性能的影响,本文提出了一种考虑NUMA结构硬件性能优化集合通信性能的算法,该算法调用MPI进程管理接口PMI的功能函数获取yu运行时进程-核映射信息并利用较优的通信模式优化MPI集合通信性能。实验结构表明Intel平台下短消息的MPI_Bcast(O)、短消息Allgather、短消息Alltoall的性能分别提升了40.86%、32.61%、7.85%;长消息Allgather性能提升了36.15%。
其他文献
软件开放社区是一种新的软件服务形式,它以开放平台为基础由第三方开发者作为主要软件供应商,能够快速满足多样化的用户需求。Facebook和AppStore等软件开放社区已成为目前软件
为了使得应用具有更高的性能、可伸缩性和可用性,并且减少硬件成本,越来越多的互联网应用开发人员选择为应用在云基础设施上构建云服务。随着云服务开发的需求的增加,有必要为云
图像处理主要包括图像压缩、图像增强、图像复原、图像分割和图像分析等,其在许多应用领域受到广泛重视并取得了重大成就,如航空航天、生物医学工程、工业检测、气象、公安司法
随着GPS定位系统和无线网络技术的不断完善以及移动终端的大量普及,用户可以在需要时使用由移动终端提供的位置信息服务。例如滴滴打车之类的移动终端应用软件在发送位置需求
语音驱动人脸动画是使用语音作为数据源,合成与语音匹配的人脸表情动画技术。本方向的研究主要探究人们日常生活中最直观的面对面对话交流,因此其研究成果具有广泛的应用价值
社会网络是对现实世界中人或组织的社会关系的抽象表示。社会网络上的传播行为对人类生活的很多方面产生了重要影响。社会网络上的信息传播活动是人们获取信息与增进了解的重
在计算机图形学中,不同自然场景间的交互作用模拟成为近年来研究的热点问题之一。树木作为自然界最常见也是最重要的组成元素之一,其与周围环境之间的交互作用模拟在电影、游戏
云计算是一种面向下一代互联网的计算模式。在该模式下,应用、数据和IT资源以服务的方式通过网络提供给用户使用。经过几年的发展,云计算逐渐成熟,得到工业界和学术界的普遍认可
BSRF生物大分子光束线站为我国从事生命科学领域研究的用户开展生物大分子三维结构研究提供了重要的实验平台。为了保障线站的运行安全、提高实验效率与机时利用率,利用LabVIE
随着移动互联网的快速发展,越来越多的用户开始选择以移动应用(App)而非浏览器作为访问互联网的方式。为了顺应这种趋势,大型门户网站和服务提供商开始提供移动App用于访问各种