高效稳定的GPU内存管理系统

来源 :第 23 届全国信息存储技术学术会议 | 被引量 : 0次 | 上传用户：viviane_px349

【摘要】

：

　　近年来基于GPU的并行技术发展迅猛,许多计算量很大的应用通过GPU并行计算获得了近百倍的加速比。然而,GPU的异构并行在内存管理方面面临着诸多问题。首先,GPU端显存的分

【作者】

：

张静蓉王子豪陈庾万晓华张法刘志勇

【机构】

：

中国科学院大学北京100049;移动计算与新型终端北京市重点实验室(中国科学院计算技术研究所)北京100190移动计算与新型终端北京市重点实验室(中国科学院计算技术研究所)北京100190计算机体系结

【出处】

：

第 23 届全国信息存储技术学术会议

【发表日期】

：

2017年9期

【关键词】

：

异构并行计算 GPU计算 CUDA 内存管理

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

　　近年来基于GPU的并行技术发展迅猛,许多计算量很大的应用通过GPU并行计算获得了近百倍的加速比。然而,GPU的异构并行在内存管理方面面临着诸多问题。首先,GPU端显存的分配与访问、GPU与CPU的数据传输十分耗时。其次,应用GPU处理的问题越来越复杂,涉及的分配与释放的变量数量也越来越多,尺寸也越来越大。这对GPU端的内存管理提出了更高的要求。可是目前GPU端尚没有一个同时针对高效数据传输和提高内存利用率这两个目标设计的GPU内存管理系统。针对这个的问题,我们设计了一个可以高效稳定地管理GPU端内存分配的系统。首先,我们提出对变量进行分组管理,以减少数据分配和传输时间。其次,我们设计了一个"两阶段的内存管理机制"。在内存相对充裕的第一阶段,栈式内存管理机制可以帮助我们快速完成数据分配。在内存紧张的第二阶段,链式的内存管理机制可以保证程序正常运行。关于数据传输耗时的问题,由于数据传输的发起动作本身就很耗时,当程序需要传输多个小数据时,一般的数据传输方式意味着大量时间花费在了发起动作。将数据组织在一起传输过去可以减少数据传输消耗的时间。然而,将内存组织在一起需要程序员自己计算每个变量的地址偏移量。还需要考虑地址对齐等问题。这使得代码难读又容易出错。我们提出在数据的分配和传输阶段,将变量分组的技术。注册在同一组的变量会拥有相邻的地址空间,一次分配操作就可以为各个变量分配好各自的CPU端和GPU端地址。在没有内存管理系统的情况下,由于变量申请和释放时间的随机性,GPU端的内存会随着程序的进行,碎片化会越来越严重。由于GPU内存分配要求一个变量占用的内存空间连续,这就会出现即使GPU可用内存足够,仍旧无法满足内存申请的情况。连续内存便于寻址和数据传输,为了同时利用连续内存访问的好处并保证内存利用率,我们设计了一个双阶段的内存分配机制。首先,在内存资源不是约束条件的状态下,我们采用基于栈式的内存分配机制。通过移动栈顶指针来分配和释放内存。在释放不与栈顶相邻的内存时,我们就把它存入链式自由空间以备之后使用。栈式的内存管理在内存资源不是瓶颈的情况下,充分利用连续内存的优势,快速完成内存分配任务。其次,当内存资源紧张的时候,栈顶之上的自由内存可能无法满足内存分配的要求。这时就要使用之前释放的不连续内存来完成内存分配。在链式内存分配阶段,若存在一个尺寸大于申请的内存块,我们采用"首次适应"原则分配内存。若存在多块不连续内存尺寸之和可以满足一次内存分配,我们以尽量少的不连续内存块为链式内存分配的首要原则,"首次适应"为次要原则来完成不连续内存的分配。同时,针对不连续内存的情况,为了让程序可以快速获得地址,我们设计了一个以线程块(block)为单位的地址索引结构来加速地址的寻址。综上所述,我们建立了一个GPU端的内存管理系统。对变量的分组可以加速数据的传输,减少内存的碎片化,帮助编程人员组织变量。通过双阶段的内存管理,可以在内存相对充裕的情况下快速完成数据传输,在内存紧张的情况下,保证程序正确运行。实验结果表明,我们设计的内存管理系统可以在GPU端高效的运行。

其他文献

碳氮纳米材料微结构的调控及其催化性能

会议

施工安全事故致因模型及丰城电厂案例分析

　　为揭示建筑施工安全事故机理，有效预防施工安全事故，本文基于事故致因理论和案例分析，从组织管理、技术管理、资源保障、教育培训和应急救援五个系统出发，分析造成施工安全事

会议

建筑施工施工安全事故致因数据统计案例分析

Z型碳量子点-WO3复合材料的制备及其光热催化环己烷氧化性能研究

　　目前工业上环己烷氧化存在反应条件苛刻,转化率低,选择性低和过量氧化副产物等问题,开发低成本的高活性催化剂具有重要前景[1].三氧化钨具有较高的价带电势,空穴氧化能力

会议

三氧化钨碳量子点环己烷氧化光热协同催化

1D2D核壳结构CdSg-C3N4的制备及其光催化制氢性能研究

　　CdS在众多的候选材料中具有良好的可见光响应、合适的带隙和优异的光电特性的优势,但是其严重的光腐蚀和快速的电荷复合速率极大限制了它的应用[1].将CdS与其他能带结构

会议

CdS/g-C3N4异质结核壳结构Z型光催化剂

电纺纳米纤维(管)材料的可控制备及光催化产氢机理探究

会议

基于SSD-SMR混合存储的LSM树键值存储系统性能优化研究

　　随着全球数据的快速增长,大规模数据的产生对存储设备的存储密度提出了严峻考验.磁盘存储技术由于存储密度高,价格便宜,是大数据存储的一种非常重要的存储介质.但是目前

会议

大数据日志合并树瓦记录磁盘闪存混合存储

一种基于BP-ANN模型的硬盘故障预测模型研究与实现

　　随着存储系统规模和复杂性的不断增长,传统的冗余机制难以提供足够的可靠性,构建高可靠性的存储系统成为了巨大的挑战.目前绝大部分磁盘都支持SMART技术,即磁盘自我检测

会议

SMART反向传播人工神经网络存储系统磁盘故障检测

纠删码存储系统中基于网络中计算的高效故障重建

　　现在,分布式存储系统存储数PB字节的数据变得越来越常见。这些系统不得不忍受由软件失效,硬件损坏和机器重启等引起的各种不同的系统故障。为了保证系统可靠性和数据完整

会议

分布式存储系统多副本纠删码恢复开销软件定义网络交换机

一种数据库压缩技术中的缓存优化方法

　　近年来,各行业所产出的数据量增速提升,对数据的存储和查询的需求急剧增加,对承担海量数据存取任务的数据库管理系统进行优化的需求也从未减小.在这种背景下人们注意到,

会议

数据库数据压缩虚拟化磁盘I/OSSD

基于差值和压缩的减少SSD擦除次数的方法

　　固态硬盘(Solid State Drives,SSD),具有读写速度快、防震抗摔、低功耗、无噪音、工作温度范围大、轻便、体积小、经久耐用等多种优点；另一方面,在读写接口规范和定义上,S

会议

固态硬盘擦除次数二次写

高效稳定的GPU内存管理系统

其他学术论文