基于拓扑感知的MPI Alltoall通信优化

来源 :2014全国高性能计算学术年会 | 被引量 : 0次 | 上传用户:williamt
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
Alltoall通信是对网络性能要求最高、扩展性最差的MPI集合操作之一,同时又作为核心通信模式广泛应用于诸多计算领域.而随着高性能计算机系统规模的急剧增大,能够降低成本并提高利用率的过载网络(oversubscribed network)设计成为大规模计算系统网络设计的趋势.过载网络给Alltoall通信带来更严峻的挑战,网络的过载特性不仅会导致链路的竞争,还易引发消息顺序错乱从而严重降低通信性能.为此,本文提出一种针对过载网络的拓扑感知Alltoall优化方法.该方法以针对小规模系统的优化算法为基础算法,使用层次化通信结合粗粒度同步缓解大规模环境下由消息序错乱引起的通信低效问题,并使用“分批-节流(batch-throttling)”思想解决高网络过载率带来的过度竞争问题.在SMP集群和神威蓝光系统的上的测试结果表明,本文优化方法可以显著提升Alltoall通信性能.
其他文献
会议
宏基因组主要研究特定环境中微生物的组成及与环境因素的交互关系,其任务之一是将不同基因按照样本特征进行聚类,进而研究各类之间的相互关系.由于样本量m-般在上千左右,每个样本中包含的基因数量n也在百万左右,且符合数据特性的聚类算法复杂度为O(m2n2),常规实现方式需要耗费大量计算时间.为此,本文选取适用于宏基因组数据的聚类算法,使用一千个样本和五千个基因进行测试,原串行程序需要运行十几个小时,而基于
生物信息学的快速发展使得其所研究的生物体基因组规模越来越大,结构越来越复杂,这对如何快速进行基因组组装,获得准确完整的基因组序列提出了巨大的挑战.基因组组装中的线性化步骤耗时巨大,是计算密集型和内存访存密集型兼具的过程,本文研究了将随机List ranking算法应用于该线性化步骤的新型并行方法,对其基本原理进行了解释,并根据其具体实现方案,细致分析各个要点,设计了相当完备的通信消息量模型,非常准
本文提出一种基于云安全的便携云存储设备,具备自安全、自学习、自审计功能,能够有效规避非安全环境下对存储操作时发生的泄密等非安全事件.通过内置安全引擎能够实现基于HTML5浏览器和基于X-Client方式的硬加密访问;通过内置网络安全引擎以及高性能签名算法,能够实现高速网络安全访问以及安全云存储功能.同时应用一种适用于云存储安全的深度学习技术,可作为传统被动入侵防御技术重要补充技术手段,满足当前安全
我国国家级超级计算中心普遍面临应用不足、应用领域狭窄,投资巨大、运营开销昂贵的问题,通过对比国内外典型超算中心应用和运营机制,分析我国超算中心在应用推广和运营机制方面的问题,指出需要针对我国超算中心建设特点和应用需求,由政府主导,联合高校、科研机构和企业联合推动超级计算机应用,提高我国超级计算机应用水平,实现超算中心良性运营。
在用机器学习方法解决自然语言处理领域的问题,将词或符号表示成向量是一项基本工作.Google的开源工具word2vec利用深度学习模型得到的分布式词向量,能粗略表示词与词之间的距离,甚至词与词之间的向量运算能与语义对应,是近年来获得词向量的主流方法.在GPU上训练得到词向量,实现了CBOW和Skip_gram两种模型,每种模型又包含了层次Softmax和负取样两种算法.其中在层次Softmax算法
已有的相关方法和软件在解决表观遗传学领域中DNA甲基化状态预测问题时,存在不准确、速度慢、时空效率低等问题.针对该问题设计并研发了新的甲基化状态预测程序("Hint-Hunt").新程序通过对含有辅助定位信息的甲基化序列进行最优相似比对,实现了对DNA甲基化状态的分析与预测,能够精准地给出参考序列中每个位点的甲基化状态数据.同时程序还实现了甲基化状态的假阳性识别、阈值过滤、最优筛选和得分共享机制等
高效的动态任务调度和容错机制是高性能计算面临的挑战之一,多数已有的方法难以高效扩展到大规模环境.本文提出了基于N层排队理论的高可扩展动态任务调度模型,为程序员提供简洁的并行编程框架,有效降低了编程负担;使用泊松过程相关理论分析了任务申请的平均等待时间,通过给定的阈值进行决策分层;结合局部感知的轻量级降级模型,可有效降低大规模并行课题的容错开销,提高系统的可用性.Micro Benchmark在神威
针对肿瘤细胞测序数据的基因拷贝数变异检测是研究癌症相关基因变异的重要手段.高通量测序技术的迅速发展产生的海量测序数据,一方面推动了基因拷贝数变异检测算法的发展,另一方面带来了数据处理与存储等计算问题的挑战.本文提出了一种新的面向多核平台的基因拷贝数变异检测的并行算法,设计了一种基于序列数目等量的窗口划分与合并策略,并通过将计算过程划分为多个计算BIC值的计算任务实现了程序的并行化,在此基础上,通过
针对GPU集群系统,研究了AINV和SSOR-AI两类近似逆预条件的并行算法.采用多级k-路图划分方法,通过子图的内点和边界点识别方法以及稀疏矩阵的置换技术,提出了将稀疏矩阵转换为分块箭形矩阵的并行方法.基于所形成的分块箭形矩阵,结合块内稀疏矩阵近似逆串行、块间并行的策略给出了近似逆预条件的并行方法,实现了AINV和SSOR-AI并行算法,解决了AINV预条件难以并行的问题.基于CPU与GPU协同