龙芯平台上的并行程序性能分析及优化

来源 :中国科学院大学 | 被引量 : 0次 | 上传用户:BigWrist
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
龙芯处理器是具有自主知识产权的国产通用处理器。随着计算机体系结构的发展,并行程序成为多核处理器上一项重要的负载。为了提升龙芯处理器的市场竞争力,需要提高龙芯多核处理器的性能。  本文使用PARSEC并行测试集对比分析了龙芯和AMD两种多核平台的性能(两种四核处理器型号分别为龙芯3A2000和AMD Phenom(tm) II X4820),并针对龙芯多核平台的性能瓶颈提出了相应的优化方案。本文的主要工作和贡献如下:  1.将PARSEC移植到龙芯平台上,并对比分析了PARSEC在两种平台上的原子操作和线程扩展性能。实验结果表明,龙芯的原子操作性能比AMD差,但其可扩展性更好。因为在原子操作的实现上,龙芯采用ll/sc指令,而AMD采用锁定内存总线的方式,后者使用的指令条数更少,但会独占使用共享内存。在线程扩展性能方面,龙芯比AMD好,因为龙芯基于目录的Cache一致性协议的核间通信开销比AMD基于侦听总线的Cache一致性协议低。  2.通过对比PARSEC在两种平台上的运行速度,分析出龙芯平台上由地址非对齐访问引起的性能瓶颈,并提出了使用MIPS中一对特殊的访存指令替换非对齐访存指令的优化方案。实验结果表明,使用该方案对存在非对齐访问的freqmine程序进行优化后,其性能提升了78.11%。  3.通过对比PARSEC在两种平台上的分支误预测率,分析出龙芯平台的分支预测精度不高,并提出了使用更长的全局转移历史和更复杂的索引机制来预测转移方向的优化方案。实验结果表明,使用上述优化方案后,本文所测程序的分支误预测率平均下降了51.39%。  本文针对龙芯平台存在的性能瓶颈提出的优化方案对改进龙芯处理器的结构设计具有指导意义。上述方案对其它MIPS处理器同样适用。
其他文献
OLAP和Web Service都是近年来日益受到人们重视的软件技术。OLAP向人们提供了一种强大的信息分析处理技术;而这两年来迅速崛起的WebService技术则以其开放、简单、易于实现的
“自顶向下”(Top-Down,TD)的蛋白质组学主要是以直接鉴定和定量整体蛋白质为研究目标。其中的计算问题相对于以肽段为研究对象的“自底向上”(Bottom-Up,BU)的蛋白质组学变得
针对现有附网刻录光盘镜像服务器功能单一、用户响应漫、不支持远程访问等缺点,设计并实现了新型的多功能附网存储服务器.该服务器除光盘镜像、附网刻录等基本功能外,还具有
该文针对Web资源访问控制中存在的问题,对基于特权管理基础设施(PMI)的属性证书机制和基于角色的访问控制(RBAC)技术的发展现状作了详尽的阐述和深入的探讨.同时围绕RBAC、PM
开发嵌入式Linux系统首先要解决它的引导问题,通过对核心的构造和引导过程的深入分析,研究出了嵌入式Linux的一般引导机制,给出了核心引导的三个必要条件,并为EDB7312开发平
随着目录服务和网络技术的发展,目录在网络中的作用越来越重要.目录服务从LDAP V3推出后,得到了主流网络操作系统的支持.这些都促进了整个网络资源的访问速度,提高了网络运行
随着我国全民健身意识的不断增强,人们逐渐将健身运动作为日常生活的一部分,并且为了能够更加科学规范地进行健身运动,通常在运动的同时记录当前健身数据从而进行统计和分析。随
随着移动互联网的兴起和位置感知技术的广泛应用,通信、交通、航运等领域积累了海量的轨迹数据,亟待挖掘其中的高价值信息。轨迹数据挖掘的基础是高效的轨迹查询,即从全量数据集
学位
该文研究的是无线环境中的OFDM技术,因此论文的开头对无线信道的特性进行了分析.论文接下来对OFDM系统进行了深入的研究,重点研究OFDM系统在衰落信道中对抗码间干扰的原理,并