论文部分内容阅读
随着对撞机性能的改进和取数效率的提高,高能物理实验产生的数据量逐年增长,通常一个大型的高能物理实验几年中可获取的数据达到PB甚至EB量级;物理分析就是从如此庞大的数据量中挑选出极少量有意义的物理事例,得到新的物理发现或实现物理量更精确的测量,因此高能物理数据分析计算是一个典型的大数据挖掘应用。传统数据分析平台通常采用以计算为中心的集群结构,即将作业调度到空闲的计算节点,在计算节点上运行的作业通过高速网络对数据进行访问再进行处理,对于海量数据的分析处理,I/O性能成为此计算模式的系统瓶颈,严重时将引起系统性能的下降;同时,使用树结构的文件对物理事例进行存储,事例的索引效率也受到影响。近年来,研究者一直在尝试通过新的计算机技术将高能物理计算模式转变为以数据为中心的新型计算模式,以解决传统的高能物理计算模式所面临的问题,如I/O瓶颈问题。通过将Hadoop技术应用到高能物理数据分析上,我们不仅提高了数据分析的速度,还降低了集群的建造与运维的成本,但在实际应用中,还存在数据预筛选服务可用性差、事例随机读效率低下等问题。针对这些实际问题,论文深入研究了高能物理数据存储结构和数据分析过程的特点,利用列式分布式数据库HBase和MapReduce计算模型提出并实现了数据完全本地化的高效率的新型高能物理数据存储及分析平台(简称基于HBase的高能物理数据存储及分析平台)。论文的主要研究内容及贡献包括如下几点。 1.利用基于HBase的新型数据存储技术方案提高数据访问效率。HBase具有良好的水平可扩展性,能够实现高并发的数据读取操作;而且与传统的DST(Data Summary Tapes)文件存储方式相比,HBase的“键-值对”存储模式更加适合处理数据随机读取的问题。论文根据高能物理数据本身和数据处理过程的特点,提出了基于HBase的新型存储方式,改变了高能物理传统的基于事例的存储结构。同时,论文还设计并实现了一套专用的轻量级数据序列化/反序列化的内存数据传输协议,提高了数据处理速度。 2.建立基于事例元数据信息的数据预筛选模块,加快事例筛选速度。高能物理数据中的绝大部分数据为物理学家不感兴趣的数据,可以通过简单的判选条件过滤掉。论文设计并实现了灵活、可选择、可配置的基于事例的元数据信息的数据预筛选模块,通过设置适当的判选条件,通过预筛选处理可以帮助物理学家筛选掉高达99.9%的无效数据。这样不仅可以节省I/O资源,还能提高CPU利用率,减少数据分析耗时。 3.充分利用MapReduce并行框架的优势,提供高效并行数据分析服务。论文针对高能物理数据分析过程及数据存储特点,利用JNI技术开发了新的HBaseC++访问接口,重新设计并实现了MapReduce模型的核心组件及HBase数据表分裂算法等,开发了一套完全本地化数据访问及处理的解决方案,实现I/O和CPU等资源效能最大化。 4.提供物理分析的集成WEB界面,方便物理学家使用。论文设计开发了数据分析环境、作业管理系统、ROOT绘图模块等多种功能集成的WEB用户分析界面,改变了一直以来的命令行工作方式,大大增强了用户友好性。 论文提出并实现了基于HBase的新型高能物理数据存储技术方案、可配置的事例预筛选模块以及完全本地化的数据并行处理方案,解决了当前高能物理数据处理平台/系统在实际应用遇到的一些问题,并且进一步提高了物理分析的效率。此外,Hadoop集群技术的容错及易扩展等机制使得新平台具有良好的稳定性和可扩展性。