论文部分内容阅读
近年来,“大数据”这个词已经逐渐地成为现代社会多个行业所关注和研究的热点。当前在信息科学领域内对于大数据的研究主要集中在大数据的采集、大数据存储、大数据挖掘、大数据分析和大数据的可视化等几个方面。目前大数据的存储和管理技术已经成为大数据分析和处理技术中首先必须解决的前期关键科学问题,因此开展有关大数据存储和管理方法的研究有重要的理论意义和实际意义。本文在对当前的相关存储管理技术进行了较系统的分析和研究的基础上,面向大数据存储系统设计了一种基于消息队列的异步非阻塞的分布式任务管理的框架,并在此基础上实现了一个基于分布式复杂任务树的大数据存储系统原型。本文的主要工作可以归纳为以下几个方面:(1)研究了当前常见的存储系统的体系架构,针对大数据存储系统任务管理的特点,提出了一种新型的任务处理引擎,它能够将任务描述和执行过程进行解耦合;并且基于多叉树和有限状态机实现了一种新型的数据结构—复杂任务树,这是一种能够直接描述一个复杂任务的数据结构。(2)设计了一种面向大数据存储系统的复杂任务树的任务调度器,它可以调度大数据存储系统中存在依赖关系的一组任务的执行顺序。(3)进一步将复杂任务树扩展成了分布式复杂任务树,实现了跨结点的任务类。一棵复杂任务树可以在物理上分布在多个机器节点上,使用跨结点的任务方式,可以将一个任务分布在多个服务器上运行,充分利用了闲置的CPU资源,解决了胖客户端的单点负载过重容易成为性能瓶颈的问题;提供了统一的服务模型,存储系统中的不同角色可以使用完全相同的执行逻辑,在单线程中做到了管理和执行所有类型的任务,并且屏蔽了执行细节,使得大数据存储系统中的所有任务可以由分布式复杂任务树来描述。(4)基于消息队列使用异步非阻塞的处理方式,采用分布式复杂任务树来描述和管理大数据存储系统,并在此基础上设计了一种基于分布式复杂任务树的大数据存储系统原型。本文提出的面向大数据存储系统的分布式复杂任务树调度器的存储管理方法对今后进一步优化大数据存储系统的性能将有较好的参考作用。