微处理器中硬件数据预取技术研究

来源 :北京大学 | 被引量 : 0次 | 上传用户：fclzlj123

【摘要】

：

随着集成电路制造工艺的快速发展，处理器与主存之间的性能差距不断扩大，访存延迟对处理器性能的制约日益严重。同时，电源电压等比例缩小趋势的放缓导致单位面积芯片的功耗不断增

【作者】

：

党向磊

【机构】

：

北京大学

【出处】

：

北京大学

【发表日期】

：

2013年期

【关键词】

：

数据预取预执行访存性能微处理器设计混合式局部化策略

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

随着集成电路制造工艺的快速发展，处理器与主存之间的性能差距不断扩大，访存延迟对处理器性能的制约日益严重。同时，电源电压等比例缩小趋势的放缓导致单位面积芯片的功耗不断增加，使得能效成为处理器设计的重要指标。层次化高速缓存结构在填补处理器与主存之间的性能鸿沟方面发挥了重要作用，是影响处理器访存性能和能效的关键部件。面向访存性能优化的硬件数据预取技术对处理器层次化高速缓存结构的性能和能效均有重要影响。本文针对硬件数据预取技术的性能和能效等关键问题开展研究工作，提出提高预取性能和降低预取开销的优化技术，在优化处理器性能的同时提高处理器的能效。本文的主要研究内容和贡献包括以下几个方面:　　1.提出了一种采用混合式局部化策略的数据预取方法，用较低的开销同时实现两种典型的失效地址流局部化策略以提高数据预取的性能。该方法只记录一份失效地址历史信息，通过两个索引表和两组指针同时实现两种局部化策略，以降低存储开销。该方法串行使用两种局部化策略，并在第一种局部化策略下找到重复出现的访存模式时不再使用另外一种局部化策略，以降低能耗开销。使用SPEC基准测试程序的实验结果表明，与采用单一局部化策略的两种预取方法相比，对于预取敏感的程序，该方法在平均情况下能够将性能分别提高4.90％和3.09％，从而将处理器的能效分别提高6.46％和4.24％。　　2.提出了一种基于访存模式感知的数据预取方法。该方法针对现有性能较好的DC(Delta Correlation)预取器在处理跨距访存模式时浪费存储空间并且会产生大量冗余预取的问题，动态识别跨距访存模式与其它访存模式，并根据它们的不同特性自适应使用相匹配的存储结构和冗余预取过滤机制。该方法能够避免为跨距访存模式保存多余的失效地址以减少预取器的存储开销，并通过减少冗余预取来降低预取的能耗开销。使用SPEC基准测试程序的实验结果表明，与相关工作中的预取方法相比，该方法仅用23％的存储容量即可取得更好的平均性能，并且能够将冗余预取在所有预取中的比例从64.71％降低到1.87％。与已有方法相比，对于预取敏感的程序，该方法在平均情况下能够将L2 Cache能耗降低19.16％，从而将处理器的能效提高6.01％。　　3.提出了一种基于预取历史信息反馈的自适应无用预取过滤方法。该方法记录已发出的预取地址以及因预取而发生替换时被替换数据的地址，根据预取地址还是替换地址先被处理器访问来判断预取对性能的正面和负面影响。该方法根据一段时间内已发出预取中对性能有正面影响的预取是否占多数来自适应选择发出或过滤新产生的预取。为了减少对有用预取的影响，该方法统计被过滤的预取地址是否会被处理器访问的历史信息用以构建过滤反馈机制。使用SPEC基准测试程序的实验结果表明，与原有预取方法相比，该方法能够将无用预取减少41.27％，同时仅将有用预取减少3.44％。　　4.面向单发射处理器提出了一种基于值预测和指令复用的预执行机制，使用值预测技术预执行与失效Load指令数据相关的后续指令以隐藏较长的高速缓存失效延迟，并通过指令复用技术避免退出预执行后重复执行已正确完成的指令以降低预执行的能耗开销。该方法以较低的硬件开销实现了一种能够同时捕获两种值局部性特性的混合值预测器，以取得更好的值预测效果。使用SPEC和Olden基准测试程序的实验结果表明，与相关工作中的两种预执行方法相比，该方法在平均情况下能够将性能分别提高6.91％和9.81％，能耗分别降低13.33％和6.41％，从而将处理器的能效分别提高23.34％和17.33％。

其他文献

局域网用户网络行为监管研究与实现

在任何组织中,允许内部员工外联网络都是一种必然要求,但过多的与工作或学习无关的网络行为将严重影响效率,更可能引发内部安全问题,根据多个机构发布的调查报告,在我国企业

学位

局域网行为监控行为分析行为控制

基于PKUnity-3(65)的高清视频VoIP软件实现与QoS优化

近十年来，基于IP网络的语音及视频通话在技术上发展迅速，其实际应用也越来越广泛。视频通话功能满足用户对实时通讯更高的需求，具有很好的应用前景。PKUnity-3(65)是一款由北京

学位

视频通话服务质量保证自适应码率控制前向纠错编码PKUnity-3芯片图形处理器

基于FPGA的uIPv6 IP核的设计与实现

随着物联网时代脚步的临近，嵌入式系统的在网络端的应用与日俱增。然而目前主流的IPv4协议由于其有限的地址位，是无法满足物联网时代海量的地址分配需求。因此采用128位的地址，

学位

uIPv6FPGA轻量化设计模块化设计IP核

无线传感器网络中节点安全定位方法的研究

在无线传感器网络应用中，节点的位置信息对传感器所采集数据的有效应用起着重要作用，节点定位技术因而成为无线传感器网络研究领域的关键技术之一。传感器网络应用环境的开放性

学位

无线传感器网络节点定位网络安全移动信标女巫攻击检测

支持非数值型测试用例自动生成的抽象内存建模技术研究

软件测试按测试的执行阶段可划分为单元测试、集成测试、系统测试和验收测试。作为软件测试的第一阶段,单元测试只对软件中的最小可测试单元进行检查和验证,相对于其他阶段的

学位

单元测试抽象内存建模语义分析约束提取测试用例

基于Web日志的政府网站热点信息挖掘技术研究

信息技术的快速发展和应用，加快了现代人的生活节奏，影响了人们的生活方式。Internet技术在个人生活、企业管理以及电子商务的应用，使人们能够更加快速和便捷的获取想要的信息，使

学位

Web日志挖掘政府网站热点信息挖掘频道访问度电子政务

信息融合方法在枪弹外观检测中的应用研究

在枪弹外观缺陷检测领域，人工检测方法在测量精度、效率、实时性方面不能满足生产需要，因此，论文提出基于信息融合及图像处理技术的智能检测方法，该方法具有精度高、速度快、生产

学位

信息融合图像处理外观检测模式识别

UniCore-3处理器中在线调试器的软硬件设计与实现

随着集成电路制造工艺的不断发展，单芯片上可集成的晶体管数不断增多，芯片的功能和性能不断提高，内部结构越发复杂。这对流片成功率，高可靠软件系统开发等带来了更大的挑战，因而，需

学位

UniCore--3微处理器在线调试器断点调试可调试性设计片上追踪

基于协同过滤算法的个性化推荐技术研究

随着互联网的飞速发展,网络数据迅速膨胀,信息超载和信息迷航的问题日益突出,用户想要快速地从众多的数据中找到符合自己需求的信息越来越难。为了解决这个问题,研究者们提出

学位

个性化推荐协同过滤兴趣迁移信任度用户聚类

基于关键点匹配的汉字笔画自动提取方法研究与实现

社会对字体需求的增加，人们对个性化字体的追求，推动了汉字智能造字技术的不断发展。而基于笔画拼组的汉字智能造字技术需要不同风格的笔画库作为依托。在此应用背景下，本文通过

学位

汉字笔画提取骨架提取形状上下文图匹配关键点匹配

微处理器中硬件数据预取技术研究

其他学术论文