Hive中的多维索引性能优化及评测

来源 :中国科学院大学 | 被引量 : 0次 | 上传用户:lszll2008
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,随着信息技术的高速发展,我们正逐步迈入一个大数据的时代,每天有大量的数据从互联网中产生,如何对这些数据进行保存、分析已成为各大公司的主要挑战。在这种背景的驱动下,诞生了如Hadoop,Spark等大数据系统,这类系统已经成为应对大数据挑战的主要解决方案。为让有数据库背景的人员能够更好、更快地利用分布式技术对公司的数据进行分析,又诞生了诸如Hive,Pig等高层查询系统。它们可以让使用者以类SQL的方式进行数据查询,大大降低了使用门槛。  如今,Hive已广泛被各大公司作为大规模数据的查询分析工具。它提供一种类SQL的查询语言——HQL。为提高Hive的查询速度,可采用高效的文件格式进行存储,如RCFile、ORCFile,同时也可对数据建立索引,如CompactIndex、BitmapIndex、DGFIndex等。但由于不同的文件格式与索引的设计思路、实现方式不同,Hive用户难以根据应用特征选择合适的技术组合。而且,目前缺乏对类Hive系统中列式存储与索引技术的综合性评测工作,为解决这一问题,文本首先模拟真实企业中的数据处理流程,设计了一套对文件存储格式与多维索引的评测体系,然后基于该体系对Hive中的列式存储与索引技术进行了大量的综合性评测工作,最后基于评测的结果为Hive用户给出一个提升多维查询性能的实践方式。本文的具体工作内容包括以下几个方面:  (1)设计并实现完成DGFIndex索引对列式存储文件格式RCFile,ORCFile的支持。DGFIndex是一种基于分布式网格文件的索引结构,它利用键值的方式加速索引读取,通过建立索引维度与多维空间的映射达到细粒度数据过滤的目的。但目前DGFIndex仅支持行式存储文件格式TextFile,数据存储与读取性能较低,无法过滤查询无关的列。因此使其支持列式存储不仅可以减少数据表的磁盘空间占用,还可以进一步过滤无关数据,显著提升其性能。  (2)实现创建DGFIndex索引时对数据片进行排布的功能。当前创建索引中数据片排布采用随机放置的策略,若可以将逻辑上相近的数据在物理空间也相近排布则可以减少查询过程中的数据I/O的次数,使得查询结果更快地被返回。本文采用Z-order算法对数据片进行排布,使逻辑上邻近的点,在空间上邻近加速了查询的速度。  (3)设计并提出一套评测体系,对比不同文件格式在不同的数据集,数据量下使用不同的索引,文件格式以及数据组织方式时,对查询性能的影响,并给出如何使用的指导意见。Hive虽然被企业,研究机构广泛使用,但是并没有一个专门评价标准来对比各类使用方式的优劣以及不同的文件格式,索引等适合使用的场景和优缺点。因此本文从该方面出发提出该评测体系为使用者以及做优化的人提供参考。
其他文献
随着我国经济与社会的不断发展,各行各业对于资源的需求也不断提升,能够有效提升水资源利用率的水利工程数量也在逐渐增多,其通常是较为复杂且周期较长的项目,建设过程中也会
财务管理是保证企业发展的重要手段,如果存在问题则影响企业发展.管理会计和财务会计是会计的重要组成部分,在财务管理中角色不同.本文主要对管理会计与财务会计的异同点进行
近年,煤炭行业增长速度较慢,而且还存在着产能过剩的现象.煤炭公司要提高自身的运营管控能力,来应对外界的煤炭市场动态变化的风险,提高公司的运营能力.通过引入全面预算来加
一、先进性教育 1月5日,中共中央召开会议决定,从1月起用一 年半左右的时间,分三批对全国6800多万名党员进行一次集中教育,认真 解决党员和党组织在思想、组织、作风及工作方
组织工作政策性强,涉及面广,要从组织工作运行、组织部门人事管理、岗位管理和对组工干部的监督约束等方面人手,查找可能或容易滋生问题的环节和源头,研究提出防范和治理的
随着信息化时代的到来,国内各级人(党)代会开始使用电子选举系统进行选举。数据库系统作为电子选举系统的核心,不仅存储了选举过程中所有重要的数据,而且是子系统之间相互通信的重
图像融合作为一个新兴的学科有着广阔的发展前景。它的目的是对来自不同传感器的源图像信息进行提取与综合,从而获得对同一场景或目标更为全面、更为准确、更为可靠的图像描
胡锦涛总书记指出,检验先进性教育活动的成效,要坚持“实践标准”和“群众标准”。党的先进性要求总是与党在一定历史时期的中心任务相关联,党的先进性建设,最根本的还是要体
往来账款清理作为企业管理不可或缺的重要组成部分,是一项长期而复杂的工作,涉及面广,政策性强,这就要求我们将其作为一个社会问题来看待.本文介绍了烟草企业往来账款中所出
Jointly organized by the Fujian MinbeiGeological Prospecting Party,Nanping Mining Development Corp.and CNNC’sNingxia Nonferrous Metals Smelter,theMinning Tant