多核处理器CC-NUMA系统存储性能优化

来源 :中国科学院大学 | 被引量 : 0次 | 上传用户:powermill1
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
片上多核处理器已经成为微处理器技术发展的趋势,云计算和大数据等新应用模式的出现对计算机系统的存储性能提出了更高的要求。如何构建高效的并行计算机系统,有效的利用系统资源,一直是计算机科学研究中的一个难题。一方面微处理器计算速度不断提高,另一方面多核结构极大地增加了内存子系统的竞争压力,导致处理器的计算带宽与内存子系统的差距越来越大,尤其在大规模共享内存多处理器系统中,巨大的访存延迟制约着处理器性能的发挥,从而影响着处理器的使用效率。  本文研究多核处理器CC-NUMA系统存储性能优化的关键技术。在分析了CC-NUMA系统的软硬件特点并讨论了应用程序的数据亲和度问题的基础上,结合龙芯3号多核处理器芯片的互连结构,深入研究了龙芯多核处理器的CC-NUMA操作系统优化问题。  本文的主要贡献如下:  1.基于龙芯CC-NUMA操作系统,提出并实现了层次化锁的概念,缓解了多核处理器的同步开销,提高了锁操作的整体性能。  2.基于CC-NUMA系统,同时结合龙芯3号多核处理器的互连结构,提出了基于CrossBar的内核代码段复制技术,实现了内核代码段的本地化访问,减少了跨结点的数据访问,提高了内核代码的执行效率。  3.针对CC-NUMA系统的内存访问不一致问题,提出了基于页高速缓存的只读页复制技术,通过只读页在不同节点的冗余备份,提高了数据访问的局部性,减少了跨节点的内存访问次数,改善了系统的访存性能。  上述研究工作都在龙芯3号处理器开发系统上进行了验证,并取得了理想效果。层次锁优化策略,基于16核的龙芯3B双路处理器开发系统,运行Unixbench基准测试程序进行测试。多并发进程运行情况下,综合性能提高25%以上,其中的系统调用测试用例,性能提高约20倍。内核代码段复制技术,基于8核的龙芯3A双路处理器开发系统,运行8线程的SPEC CPU2000进行测试,定点性能提高10.2%,浮点性能提高约12.1%,其中mcf测试用例性能提升最多,达到35%以上。只读页复制技术,使用龙芯3A双路处理器开发系统,运行8线程的SPEC CPU2000进行测试,定点性能提高11%,浮点性能提高22%,其中art测试用例性能提升最多,达到60%以上。同时本文提出的一些技术和思想对其他分布式系统的设计优化也有重要的借鉴意义。
其他文献
该文首先详细介绍了系统性能评价和仿真技术,对该课题组自主开发的离散事件仿真系统JRTSS进行了详细的说明.作者参与了RTSS的改进及面向Web的版本JRTSS的开发工作.该仿真软件
企业资源计划ERP是一种将包含了销售、定货、供货、计划、生产和分销的整个供应链集成在内的关于制造型软件的理论.该文从ERP的基本原理入手,着重阐述了ERP的核心思想--供应
该文结合现有综合评估的特点,结合作者的应用开发实践,对税务稽查选案综合评估系统的构建进行了研究.综合评估系统包括指标值获得、指标归一化、权重设计和综合评估模型四部
  本课题的目的就是融桌面计算机管理和因特网络管理于一体,全面解决企业和学校的管理质量和管理成本。本文首先分析了计算机网络领域内的网络管理系统的现状和发展趋势,阐明
随着移动互联网、云计算等新技术的迅猛发展,大数据时代已经来临,数据信息已经成为一种商业资本,对海量数据的有效组织管理能创造巨大的物质财富和社会价值。以海量异构数据为服
随着信息系统应用环境的变革、PC的发展及网络技术的日益普及,集中式的Client/Server结构(简称C/S结构或两层式结构)及技术应用出现了爆炸性增长,大量的基于主机的系 统向Cli
实体关系抽取是从网络半结构和无结构文本中抽取实体属性关系和实体之间关系的技术,是信息抽取领域重要的基础任务和难点问题之一,对大规模知识库构建、问答系统、语义搜索等应
该文从软件工程的角度,说明了基于三层模式的物流管理系统的系统分析、系统设计和系统实现的过程,介绍了三层模式的系统结构,研究了实现基于三层模式的应用系统的分布式组件
该课题研究基于Realms和主存数据库技术的空间存储管理子系统NHSS(包括基于Realms的空间数据类型、简单空间分析操作、空间数据的存储管理等).Realms可以有效地表示二维的空