GPGPU片上存储系统优化设计研究

来源 :上海交通大学 | 被引量 : 0次 | 上传用户:cyqhexxjl86
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
目前,通用图形处理器(GPGPU)被越来越广泛的应用于通用计算领域。GPGPU依靠超大规模的线程并行度展现出强大的计算能力。然而数以千计的线程也对GPGPU的部分片上存储资源造成巨大的压力。例如大量的线程同时竞争片上存储系统中容量较小的一级数据高速缓存(L1D cache),严重地加剧了L1D cache的冲突失效,进而损害了系统的性能。与此同时,GPGPU的部分片上存储资源正在面临着低使用率的问题。例如在应用程序运行过程中,大量的寄存器或者共享内存处于空闲状态,造成了严重的资源浪费。本文着重研究GPGPU片上存储系统优化技术来缓解片上存储系统出现的这些问题。首先,我们在GPGPU中引入受害者缓存(victim cache),借助victim cache在片上存储系统中保留更多的缓存块(cache line)来缓解L1D cache的冲突失效问题。我们在中央处理器(CPU)中通常使用一个全相联小容量的victim cache,然而为了更好地适应GPGPU大规模线程的环境,我们在GPGPU中引入一个与L1D cache相同的大容量组相联victim cache。其次,我们进一步使用一个简单的预测策略将最常使用的cache line尽可能保留在L1D cache中,通过尽量避免cache line在victim cache和L1D cache间的逐出和交换使得victim cache和L1D cache更好的协作。最后,我们使用片上存储系统中的静态空闲寄存器或者空闲共享内存作为victim cache数据块的存储单元,提高这些存储资源的利用率,同时节省将victim cache引入GPGPU后带来的硬件成本。实验结果表明,引入victim cache后,高速缓存的命中率平均提高26.8%,系统性能平均提升36.3%。使用预测策略后,L1D cache和victim cache之间cache line的逐出和交换平均减少21.8%,系统性能进一步提升4.9%。最后将静态空闲寄存器或者空闲共享内存作为victim cache的数据块存储单元,极大的提高了GPGPU片上存储资源的利用率,同时大幅减少了将victim cache引入GPGPU后带来的硬件成本。
其他文献
自改革开放以来,我国的建造水平不断提高,深基坑工程项目不断增多,与此同时,城市轻轨这种新型交通形式也在以迅猛的速度发展。在这种发展模式下,不可避免的会出现深基坑工程与城市轨道交通紧邻的情况,两者的相互影响也成为了一个新的研究课题。本文以实际工程项目为背景,利用ABAQUS有限元计算软件分析深基坑开挖与临近城市轻轨相互动力影响这一问题,本文的研究内容及得到的主要结论如下:(1)依托实际工程项目进行现
大唐电信科技产业集团(以下简称大唐电信集团)在推动我国具有自主知识产权TD—SCDMA发展的过程中发挥着重要的作用。TD—SCDMA刚成为国际标准时,在产业化能力、产业链成熟度等诸
李鱓,清代“扬州八怪”之一,通过对其题画诗的解读,笔者发现,在李鱓的创作生涯中,“牡丹”一直是他最受欢迎的题材之一,并且根据创作出发点的不同,其《牡丹图》呈现出两种不
亚洲领先的通信集团新加坡电信有限公司(SingTel)日前宣布与印尼领先的服务供应商印尼国有电信公司(PT Telkom)建立联盟合作伙伴关系,共同在印度尼西亚提供基于多协议标签交换技术
1确定育种目标 河南省是我国花生主要产区,近年种植面积稳定在87万hm^2以上,占全国花生总面积的1/5,位居全国第1位。花生不仅是河南省的主要油料作物,也是主要的经济作物,其面积、
统一通信联络中心解决方案提供商Aspect软件公司日前推出一项全新的专业技术支持与系统集成咨询服务。该服务将帮助公司在整个企业和客户联络中心范围内规划、部署和运行统一
我国作为人口大国,农业的发展对国家来说非常重要。传统农业机械工作效率低、成本高,因此,现代化农业的发展已成必然趋势。文中针对高地隙植保机械作业时驾驶员视野较差导致
对蔬菜型甘薯新品种百薯1号茎尖营养成分的测定分析表明,该品种茎尖食用部分为100%,含水量为89%,蛋白质含量为32 g/kg,脂肪为4 g/kg,膳食纤维含量为13 g/kg,Vc和VB2的含量分
随着当今社会的发展和社会主义市场经济的大背景下,许多高校的管理人员只有不断地对自己的工作方法进行创新与改革,提升思想政治教育的质量和效果,才能顺应新形势下的要求。本文