高能物理数据分析计算的HBase平台研究

来源 :中国科学院大学 | 被引量 : 0次 | 上传用户:heheaixixi
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着对撞机性能的改进和取数效率的提高,高能物理实验产生的数据量逐年增长,通常一个大型的高能物理实验几年中可获取的数据达到PB甚至EB量级;物理分析就是从如此庞大的数据量中挑选出极少量有意义的物理事例,得到新的物理发现或实现物理量更精确的测量,因此高能物理数据分析计算是一个典型的大数据挖掘应用。传统数据分析平台通常采用以计算为中心的集群结构,即将作业调度到空闲的计算节点,在计算节点上运行的作业通过高速网络对数据进行访问再进行处理,对于海量数据的分析处理,I/O性能成为此计算模式的系统瓶颈,严重时将引起系统性能的下降;同时,使用树结构的文件对物理事例进行存储,事例的索引效率也受到影响。近年来,研究者一直在尝试通过新的计算机技术将高能物理计算模式转变为以数据为中心的新型计算模式,以解决传统的高能物理计算模式所面临的问题,如I/O瓶颈问题。通过将Hadoop技术应用到高能物理数据分析上,我们不仅提高了数据分析的速度,还降低了集群的建造与运维的成本,但在实际应用中,还存在数据预筛选服务可用性差、事例随机读效率低下等问题。针对这些实际问题,论文深入研究了高能物理数据存储结构和数据分析过程的特点,利用列式分布式数据库HBase和MapReduce计算模型提出并实现了数据完全本地化的高效率的新型高能物理数据存储及分析平台(简称基于HBase的高能物理数据存储及分析平台)。论文的主要研究内容及贡献包括如下几点。  1.利用基于HBase的新型数据存储技术方案提高数据访问效率。HBase具有良好的水平可扩展性,能够实现高并发的数据读取操作;而且与传统的DST(Data Summary Tapes)文件存储方式相比,HBase的“键-值对”存储模式更加适合处理数据随机读取的问题。论文根据高能物理数据本身和数据处理过程的特点,提出了基于HBase的新型存储方式,改变了高能物理传统的基于事例的存储结构。同时,论文还设计并实现了一套专用的轻量级数据序列化/反序列化的内存数据传输协议,提高了数据处理速度。  2.建立基于事例元数据信息的数据预筛选模块,加快事例筛选速度。高能物理数据中的绝大部分数据为物理学家不感兴趣的数据,可以通过简单的判选条件过滤掉。论文设计并实现了灵活、可选择、可配置的基于事例的元数据信息的数据预筛选模块,通过设置适当的判选条件,通过预筛选处理可以帮助物理学家筛选掉高达99.9%的无效数据。这样不仅可以节省I/O资源,还能提高CPU利用率,减少数据分析耗时。  3.充分利用MapReduce并行框架的优势,提供高效并行数据分析服务。论文针对高能物理数据分析过程及数据存储特点,利用JNI技术开发了新的HBaseC++访问接口,重新设计并实现了MapReduce模型的核心组件及HBase数据表分裂算法等,开发了一套完全本地化数据访问及处理的解决方案,实现I/O和CPU等资源效能最大化。  4.提供物理分析的集成WEB界面,方便物理学家使用。论文设计开发了数据分析环境、作业管理系统、ROOT绘图模块等多种功能集成的WEB用户分析界面,改变了一直以来的命令行工作方式,大大增强了用户友好性。  论文提出并实现了基于HBase的新型高能物理数据存储技术方案、可配置的事例预筛选模块以及完全本地化的数据并行处理方案,解决了当前高能物理数据处理平台/系统在实际应用遇到的一些问题,并且进一步提高了物理分析的效率。此外,Hadoop集群技术的容错及易扩展等机制使得新平台具有良好的稳定性和可扩展性。
其他文献
大规模数据集的访问和计算使得OLAP查询往往需要付出高昂的时间代价。本文主要研究信息网格环境中分布式OLAP查询处理面临的两个重要问题:   (1)如何有效利用数据源计算能
当前互联网存在诸多弊端,需要通过革新来适应不断变化的需求。由钱华林研究员提出的层次式交换网络是一种全新的网络理论,从体系结构的高度解决了现有互联网的许多问题。层次式
多核处理器(Chip Multi-Processor,简称CMP)逐渐成为微处理器的主流。高效的片上数据传输系统对多核处理器设计至关重要,并且随着半导体生产工艺的不断进步成为阻碍处理器性能
VoIP第三方交换中心旨在为VoIP运营商提供一个第三方的独立的交换平台,方便VoIP运营商之间进行互联互通,同时,也为国家规范VoIP市场,对VoIP进行有效的监管提供一个可行的解决方案
结构化信息标准推进组织(0rganization for the Advancement of Structured Information Standards,0ASIS)制定的安全性断言标记语言(Security Assertion Markup Language,SAML
随着计算机图形学和虚拟现实技术的不断发展,大规模虚拟场景的实时交互绘制技术在模拟仿真以及三维交互设计等方面表现出日益广泛的应用,成为诸多研究领域面临的基本问题。近年
基于Linux远程桌面系统的音频应用,不仅是教育、电子政务、军事等领域的基本要求,同时也是满足个人Linux桌面运行环境的要求,它与Linux本地桌面系统音频应用有着巨大的差别。在L
随着化学计算和计算机技术发展,越来越多的软件被开发出来应用于化学计算、分子可视化、分子建模及化学数据库检索等领域,如何有效整合不同的化学软件为用户提供一个既可用于
本文从移动终端的安全问题出发,研究如何通过移动终端安全芯片提高终端系统的安全性,并将文中提出的新思想和国内外先进的研究成果结合起来,实现了完整的移动终端安全芯片解决方
随着互联网的快速发展,深度包检测系统成为了网络中越来越重要的组件。当前,由于深度包检测系统的核心算法的设计缺陷,实际的深度包检测系统往往无法提供线速处理的能力,同时,网络