面向高能物理数据分析的Hadoop关键技术研究

来源 :中国科学院大学 | 被引量 : 0次 | 上传用户:luwei0415
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着人类对物质世界认识的不断深入,需要设计能量和精度更高的高能物理实验装置,由此将产生海量的数据,这些数据的存储和处理面临着巨大的挑战。自从互联网及WEB技术出现以来,人类生产数据及消费数据的方式发生巨大变化,直接导致了对数据认识的质的转变,数据的价值得到凸显,数据获取手段、数据处理技术不断提升,“大数据时代”随之到来。作为应对大数据的典型解决方案,Hadoop被广泛地应用到各行各业中,并取得了巨大的成功。虽然高能物理中事例不相关特性很适合用Hadoop平台进行处理,但由于高能物理软件的复杂性和数据格式的特殊性,阻碍了Hadoop在高能物理实验数据处理和分析中的应用。为了使现有的高能物理软件能够在Hadoop平台上高效运行,本文深入分析了Hadoop框架及源码,解决了Hadoop分布式文件系统(HDFS)不支持现有软件数据访问、磁盘I/O资源利用不均衡以及由于数据集分布不均导致的作业执行效率低下等问题。本文主要的研究内容和贡献如下:  (1)新增了一种支持POSIX语义的HDFS数据访问方式。为了使HDFS支持高能物理中现有软件的数据访问,重新设计了文件的读/写流程。本文设计了HDFSService模块为应用程序提供数据访问接口,让应用程序直接在数据节点(Datanode)的本地文件系统上读/写数据。实现了更实时的文件写入状态更新以及逻辑文件名到数据块名的转换;为了实现对文件的修改和更新功能,为数据块添加了权限管理功能。新的数据访问方式不仅可以支持高能物理现有软件运行环境,并且可以大幅度提高读/写性能。  (2)设计并实现了一种基于节点磁盘I/O负载的HadoopMap任务调度策略。对于I/O密集型的大数据应用,最大化本地磁盘的I/O资源利用是提升计算集群性能的关键。因此,本文引入磁盘负载作为Map任务选择的权衡参数,任务调度时参照磁盘负载程度选择合适的任务,以保证数据节点上各个磁盘的负载相对均衡,达到充分利用本地磁盘的I/O资源效果。同时,为了进一步提升Hadoop平台的性能,实现了作业的完全本地化执行。  (3)实现了一种基于数据集的HDFS数据负载均衡方法。在很多大数据应用中,作业一次处理一个数据集,数据集的分布对作业的执行效率和集群资源的有效利用有很大的影响。如高能物理中使用元数据服务DBS(Dataset Bookkeeping Service)对实验数据进行管理、检索和统计,基于数据集的HDFS数据负载均衡方法首先会从DBS中获取数据集信息,然后对数据集进行负载均衡,使得数据集中的数据可以均匀地分布到集群的各个节点上,从而可以解决因数据集分布不均而导致的作业执行效率低下的问题。  基于本文关键技术研究实现的高能物理Hadoop数据分析平台已面向用户提供服务,支持多个物理分析程序及软件,目前已成功运行30000多个作业。本文对Hadoop关键技术的研究不仅使Hadoop平台可以运行现有的物理分析软件,而且降低了系统I/O等待时间,提升了数据分析的效率。
其他文献
软件定义网络(SDN)的出现有效地提高了网络流量的动态调度能力、应用的快速部署能力,在国内外得到了一定数量的应用。随着对SDN架构进行深入的开发和部署,发现在新的架构、新的
本文在深入研究了各种接纳控制技术的基础上,肯定了基于探测方法的优势,同时分析了探测方法可能出现的问题。为了保证探测方法的可靠性和准确性,提出了改进的基于探测的接纳控
随着有线数字电视技术的发展,数字电视网络己被看作是继Internet之后的新一代宽带网络的发展方向,基于数字电视技术的各种应用正在受到越来越广泛的关注和重视,如:基于有线数字电
随着网络和多媒体技术的迅速发展,目前,以视频和IP电话为代表的多媒体流技术已经得到了广泛应用,但用户对媒体交互性的要求也越来越高。分布式交互媒体日渐成为重要的研究方
The Semantic Web is to improve the shortages of the current HTML-based Web,on which many standard ontology modeling languages, tolls, and applications are emerg
随着计算机应用技术的发展和市场竞争加剧,开发高效、安全的企业信息系统已经成了各企业为了提高各自生存和竞争能力的重要手段之一。新型的信息系统不仅需要支持局域网下各个
本文在分析当前企业应用集成国内外研究现状的基础上,阐述了企业对新的应用集成框架的需求,研究了企业应用集成所面临的复杂性、架构策略、粒度等带来的挑战。在此基础上自行分
该文作为"基于MAS的智能决策支持系统"(Multi-Agent System Based In-telligent Decision Support System,M-IDSS)研究的一部分,系统地研究了M-IDSS中Web挖掘Agent的理论基础
随着Internet技术的广泛普及和应用推广,现代企业在功能和组织上对时间和空间分布有着较高的分布协作处理要求.采用Internet技术,研究和开发一种具有大范围时空协作处理能力
在现代社会中,人们需要一个信息平台来进行信息交流,正是基于这种需求,开发了基于COM+的电视发布信息平台系统,并在开发中采用了组件技术。 组件技术最基本的特征就是“即插即