基于片上多核处理器的缓存一致性协议研究

来源 :中国科学院计算技术研究所 | 被引量 : 0次 | 上传用户:yantianwa
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着半导体技术的发展,片上多核处理器以其高能效、高性能、低设计复杂度等诸多方面的优势已经成为微处理器发展的未来方向。缓存一致性协议是多核处理器中的一项核心技术。它的设计、实现、验证的难度大,对它的研究也一直延续至今。在多处理机系统时代,为了保证系统的灵活性、便于与不同参数配置的互连网络协同工作,一致性协议的设计有意回避了底层互连的细节,使他们处于两个不同的抽象层次上。然而在多核处理器环境下,片上网络的设计参数是在芯片设计初期就确定的。它的设计与处理器核乃至一致性协议的设计紧密相关。所以,将片上网络的特性暴露给一致性协议,或者说在设计一致性协议时考虑到网络的特征将会给协议设计带来新的优化空间。本文以此为思路,在如何降低协议中写操作的延迟、降低数据传输时导线上消耗的功耗和缩短读操作的延迟等几个方面对一致性协议进行了深入有效的研究。   本文的主要工作如下:   1.设计并实现了一个准确快速的多核处理器性能评估平台,在其上设计并实现了基于目录的缓存一致性协议。它是一个用户级性能模拟器,完整模拟了协议中MESI状态的转换和存储转发式片上互连网络结构模型,详细地刻画了各种应答和请求之间的冲突,可以对多核处理器的各种重要性能指标进行评估。该模拟器还对协议的设计和实现带来了巨大的帮助。利用它,笔者找到了一些埋藏较深的设计缺陷,增加了对协议正确性的信心,有效地降低了后期验证阶段的困难和工作量。   2.提出了距离感知的一致性协议(distance aware coherence protocol)和多目标无效请求(multi-target invalidation)两种机制来降低写无效操作带来的开销。距离感知的一致性协议技术可以根据各个处理器核在片上网络中的相对位置和相互距离的远近优化发送一致性消息的次序。使针对较远结点的无效消息尽早发送,缩短了写无效操作的整体延迟。进一步,根据已知的片上网络路由算法特性,我们将所有处理器核分为多个组,使得到达同一组中处理器核的消息经历相近的路由路径。在发送无效消息时,可以使用一个多目标的无效消息对同一组中的多个核进行操作,减少了消息发送的数量,降低了对网络带宽需求和潜在的拥堵。实验结果表明,这两种技术能使写操作的平均延迟降低5%,最多能够降低8%。   3.提出了一种互连感知、功耗有效的一致性协议。导线的功耗和延迟已经成为制约微处理器发展的重要瓶颈之一,片上网络在传递大宽度缓存数据块时将消耗可观的功耗。由于对网络中处理器位置和数据备份的分布等信息有准确的掌握,目录控制器可以将访存请求转发给距离请求者较近的处理器,使其将缓存中持有的有效数据备份发送给请求者。该协议降低了缓存块在网络中的传递距离,减少了导线所消耗的功耗。实验结果表明,在所有测试程序中平均有16.3%的二级缓存访问请求能被优化,使数据通道导线上的平均功耗降低了9.3%,最多达到了19.2%,还使得程序的性能平均提高了1.4%。   4.提出了将缓存共享信息组织成树状结构,并分散在网络上各个处理器中的一致性协议。该树状结构以目录为根,其他持有数据块共享备份的处理器核构成树中的中间结点和叶子结点。这使得read_shared(读)请求在网络上传输的过程中就能从路过的处理器结点获取数据,避免了其在网络上等待并最终进入目录进行处理所需的延迟。还提出使用Bloom filter技术大大地减少了侦听操作的数量,保证了协议能够有效地实施。实验表明,Bloom filter能过滤大约90%以上的无效查询操作,并且该协议技术能对13.6%的read_shared请求进行优化,给测试程序带来平均6.1%的性能提升。   理论分析和实验数据表明,本文提出的一致性协议优化技术能够达到有效降低协议中读写操作的开销、减少片上导线功耗、加速并行程序执行等目的。本文工作以龙芯3号多核处理器设计为研究背景,对未来多核处理器中的一致性协议设计技术做了有意义的探索工作。
其他文献
当计算机网络应用的日益普及,伴随而来的是一系列的网络安全问题,入侵检测技术作为一种主动的信息安全保障措施,备受关注。 本文首先以网络安全为基础,介绍了入侵检测的概念、
Petri网提供了一种以图形和数学为基础的形式化建模方法。现在它已经成为建模和分析工业系统的成熟工具,其应用领域也越来越广泛,涉及到工作流管理,软件工程,并发程序设计,异步电
P2P是由若干互相对等的网络结点组成的一种网络结构,其中每个网络节点称为对等点,对等点消除了服务器和客户端间的角色差别,通过它们之间的信息直接交换完成计算和信息的共享.JX
压缩感知理论是近几年兴起来的一门新的信号采样理论,它打破了传统信号采样理论在采样频率方面的限制,引起了学术界的巨大轰动。传统信号采样理论包含了四个方面的内容:采样、
随着国际化交流日益频繁,多语人才的需求越来越迫切,口语测试的普及率、公平性受到广泛关注。面对传统的口语测试所带来的时空受限、组织成本高、评估主观性强、反馈信息单一等
本文是基于机器学习中的局部加权学习(Locally Weighted Learning,简称LWL)进行了深入的研究,这种学习方法既可用于回归问题(局部加权线性回归),又可用于分类问题(局部加权朴素
在传统的客户机/服务器(Client/Server,C/S)体系架构的企业应用系统开发中,数据一般存放在服务器上,应用程序一般存放在客户端计算机上。这样的系统虽然解决了数据共享等问题,但
数据压缩技术是多媒体领域的重要研究方向之一。由于多媒体数据量非常巨大,海量多媒体数据的存储和传输成为多媒体应用所面临的主要问题。通过使用数据压缩技术,对多媒体数据进
网络流量监测对于网络流量计费、资源规划、流量控制和流量工程等至关重要。随着Internet的快速发展,带宽不断增加,高速链路对实时网络流量监测提出挑战。由于监测设备软硬件性
随着人体运动捕获设备的发展和普及,以及深度摄像机在室内交互应用中的快速发展,人体运动识别与标注及相关技术在动画制作、电影特效以及交互娱乐等多项领域中发挥了越来越重要