并行FFT可展性分析及作为新超级计算性能评测指标的可行性分析研究

来源 :2007中国计算机大会 | 被引量 : 0次 | 上传用户:yangyugui888
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
传统的超级计算系统都是使用HPLinpack测试程序的峰值来进行性能的比较和排名,然而,随着现代超级计算系统从体系结构到编程模型的不断发展,以及实际应用程序类型的不断丰富,仅仅依靠Linpack这样的解稠密线性方程组的测试程序作为评判超级计算系统性能的唯一标准已经不够了。美国的DARPA HPCS项目开始资助由HPCChallenge测试基准程序(由八个独立的测试程序组成)来对超级计算系统进行从性能到实现完美性的竞赛,以作为HPLinpack排名的一个有益的补充(http://www.hpcchallenge.org)。结合我国超级计算的发展现状,基于现代实际应用程序对计算系统内存存取以及通信更高的要求,考虑到并行FFT本身在大规模科学计算中的重要地位,及其本身算法特性对超级计算机通信与计算的能力的平衡提出的更高要求,本文提议在HPLinpack的基础上增加并行FFT作为超级计算机的性能衡量指标的重要组成部分,根据其算法特性及国际上一些公开的数据具体分析了并行FFT程序作为超级计算系统测试程序的高、低时空局部性特征及可扩展性。文章最后给出了如何将一组程序的测试结果合成为衡量计算系统性能的单一指标的具体测试及衡量原则,并给出合理性分析。
其他文献
片上网络成为当前国际多核芯片研究领域新热点。为了提高片上网络的性能,本文首先介绍仿真工具OMNeT++,然后提出了基于信用值仲裁的路由器,并通过模拟器OMNeT++对Noc常用的两种拓扑结构进行建模仿真,验证了基于信用值仲裁能减少片上网络的延迟和提高片上网络的吞吐量。
以达尔文流媒体服务器为实验平台,提出了一套基于运动强度的视频自适应传输策略。在服务器端通过检测丢包率来控制发送速率等级,避免网络拥塞,并采取一定策略消除因丢帧而产生的马赛克,在自适应策略中加入了运动强度信息,针对不同的运动强度级别做不同的处理,使得综合视频质量得到提高。实验结果表明,基于运动强度的丢帧策略不仅可以避免网络拥塞,而且可以改善视频播放质量。
人体运动捕获数据的复杂性众所周知,而如何从复杂的运动数据中荻得能够代表完整运动信息的特征,是能够正确高效分析处理人体运动数据的前提,本文提出了一种描述各关节点之间三维几何关系的几何特征。本文提取的几何特征是基于各关节点三雏几何关系的三维特征。其各关节点的几何特征是三维的,因此相对独立,每一个关节点都能独立地体现整体运动的一个局部,所以可以分别处理每一个关节点的局部几何特征。三维几何特征还避开了和原
介绍了一种给超标量流水线分配优先级并使用缓冲队列等方式来减少寄存器堆读端口的方法,从而大大减小了寄存器堆的面积和功耗,并使用了寄存器合并技术,将两个单精度数据合并写入寄存器堆从而加快了写寄存器堆的的速度。本文以有三条流水线的浮点处理器为例,说明了其实现过程。
随着流媒体应用的大量兴起,流媒体传输的基础--覆盖网已成为研究的热点.覆盖网拓扑从传统的树形拓扑向网状拓扑发展。然而两种拓扑在不同的物理网络下对流媒体传输性能的影响却缺乏系统的研究。本文在NS2上对两类传输协议的性能进行仿真测试,得出覆盖网延迟、吞吐量与节点规模、节点分布情况和所选拓扑之间的关系是,对于延迟,小规模节点下树结构优于网结构,大规模节点下当节点度数较多时,网结构优于树结构,对于吞吐量,
多核处理器的出现促进了多线程程序的流行,对多线程程序提供检查点支持越来越重要。由于线程本身的特性,用户级检查点工具在获取线程信息和控制同步的过程中有很多困难。本文利用截获系统调用的方法,设计了一种在用户级为多线程程序提供检查点和卷回恢复的方法。实验结果显示多线程程序检查点开销与线程数目基本成正比,且检查点文件规模成比例增加。
本文提出了一种可用于同步和异步流水线控制的自控式电路结构。其通过利用延迟网络的自循环实现了自我控制,并通过与上下级流水线的互动可实现整个流水线的控制。本文首先提出了电路的基本结构,在此基础上分别进行了线性流水线的实现和非线性流水线的基本模型构建,一款基于此结构的24位DSP被设计出来以证明此结构的有效性和设计可行性,结果显示采用自控式结构的DsP与同步时钟控制相比有大致相当的性能,节省了约10%~
本文根据粗粒度可重构体系结构的特征,提出了一种粗粒度可重构处理器的接口控制器的设计方法,该控制器作为一个新的功能部件嵌入到可重构处理器内部。它由命令存储器,命令译码器和命令执行器等部分组成,并为接口控制器定义了一个接口命令集,该接口控制器通过执行接口命令完成对可重构阵列的控制。最后还介绍了利用接口命令编写正确的接口命令脚本控制可重构处理器完成算法执行的方法。
在IBM JS21 Bladecenter上进行THPL与HPcc的对比测试,介绍THPL与HPCC的测试方法及结果分析方法,并采用分层模型(AHPCC)对HPCC的测试结果进行了分析。其目的是通过在高性能机群上执行这两个基准测试,比较它们的测试过程和结果分析方法。实验表明:HPLSDHPCC可操作性相近,HPCC的结果评价较HPL复杂。通过分层模型的评价,我们能够得到更多关于目标系统的性能参数和
给出一种区分服务组播的三层实现模型,在此基础上给出一种基于封装和聚集组播的区分服务组播实现方案--EADSMCast(Encapsulaled andAggregated DiffServ Multicast)。一方面通过对基于封装的DsMCast方案的改进,在组播分组头部封装聚集组播树上核心路由器的转发信息,保持了区分服务域中核心路由器的无状态性和可扩展性;另一方面,通过对聚集组播的组一树匹配算