Hive中的多维索引性能优化及评测

来源 :中国科学院大学 | 被引量 : 0次 | 上传用户：lszll2008

【摘要】

：

近年来，随着信息技术的高速发展，我们正逐步迈入一个大数据的时代，每天有大量的数据从互联网中产生，如何对这些数据进行保存、分析已成为各大公司的主要挑战。在这种背景的驱动下

【作者】

：

郭帅

【机构】

：

中国科学院大学

【出处】

：

中国科学院大学

【发表日期】

：

2016年期

【关键词】

：

Hive查询系统列式存储索引结构性能优化

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

近年来，随着信息技术的高速发展，我们正逐步迈入一个大数据的时代，每天有大量的数据从互联网中产生，如何对这些数据进行保存、分析已成为各大公司的主要挑战。在这种背景的驱动下，诞生了如Hadoop，Spark等大数据系统，这类系统已经成为应对大数据挑战的主要解决方案。为让有数据库背景的人员能够更好、更快地利用分布式技术对公司的数据进行分析，又诞生了诸如Hive，Pig等高层查询系统。它们可以让使用者以类SQL的方式进行数据查询，大大降低了使用门槛。　　如今，Hive已广泛被各大公司作为大规模数据的查询分析工具。它提供一种类SQL的查询语言——HQL。为提高Hive的查询速度，可采用高效的文件格式进行存储，如RCFile、ORCFile，同时也可对数据建立索引，如CompactIndex、BitmapIndex、DGFIndex等。但由于不同的文件格式与索引的设计思路、实现方式不同，Hive用户难以根据应用特征选择合适的技术组合。而且，目前缺乏对类Hive系统中列式存储与索引技术的综合性评测工作，为解决这一问题，文本首先模拟真实企业中的数据处理流程，设计了一套对文件存储格式与多维索引的评测体系，然后基于该体系对Hive中的列式存储与索引技术进行了大量的综合性评测工作，最后基于评测的结果为Hive用户给出一个提升多维查询性能的实践方式。本文的具体工作内容包括以下几个方面:　　(1)设计并实现完成DGFIndex索引对列式存储文件格式RCFile，ORCFile的支持。DGFIndex是一种基于分布式网格文件的索引结构，它利用键值的方式加速索引读取，通过建立索引维度与多维空间的映射达到细粒度数据过滤的目的。但目前DGFIndex仅支持行式存储文件格式TextFile，数据存储与读取性能较低，无法过滤查询无关的列。因此使其支持列式存储不仅可以减少数据表的磁盘空间占用，还可以进一步过滤无关数据，显著提升其性能。　　(2)实现创建DGFIndex索引时对数据片进行排布的功能。当前创建索引中数据片排布采用随机放置的策略，若可以将逻辑上相近的数据在物理空间也相近排布则可以减少查询过程中的数据I/O的次数，使得查询结果更快地被返回。本文采用Z-order算法对数据片进行排布，使逻辑上邻近的点，在空间上邻近加速了查询的速度。　　(3)设计并提出一套评测体系，对比不同文件格式在不同的数据集，数据量下使用不同的索引，文件格式以及数据组织方式时，对查询性能的影响，并给出如何使用的指导意见。Hive虽然被企业，研究机构广泛使用，但是并没有一个专门评价标准来对比各类使用方式的优劣以及不同的文件格式，索引等适合使用的场景和优缺点。因此本文从该方面出发提出该评测体系为使用者以及做优化的人提供参考。

其他文献

财务管理在水利工程中的重要性

随着我国经济与社会的不断发展,各行各业对于资源的需求也不断提升,能够有效提升水资源利用率的水利工程数量也在逐渐增多,其通常是较为复杂且周期较长的项目,建设过程中也会

期刊

财务管理水利工程重要性

管理会计与财务会计在企业财务管理中应用的策略

财务管理是保证企业发展的重要手段,如果存在问题则影响企业发展.管理会计和财务会计是会计的重要组成部分,在财务管理中角色不同.本文主要对管理会计与财务会计的异同点进行

期刊

财务管理管理会计财务会计

煤炭企业全面预算管理问题探究

近年,煤炭行业增长速度较慢,而且还存在着产能过剩的现象.煤炭公司要提高自身的运营管控能力,来应对外界的煤炭市场动态变化的风险,提高公司的运营能力.通过引入全面预算来加

期刊

煤炭企业全面预算问题及对策

2005年的20个关键词

一、先进性教育 1月5日,中共中央召开会议决定,从1月起用一年半左右的时间,分三批对全国6800多万名党员进行一次集中教育,认真解决党员和党组织在思想、组织、作风及工作方

期刊

时代先锋教育活动当代中国共产党中国国民党主席台海地区郁慕明两岸关系非公有制经济全方位外交主题宣传活动

组织部门坚持公道正派原则长效机制的基本框架和主要内容

组织工作政策性强,涉及面广,要从组织工作运行、组织部门人事管理、岗位管理和对组工干部的监督约束等方面人手,查找可能或容易滋生问题的环节和源头,研究提出防范和治理的

期刊

组织部门组织工作组工干部干部工作岗位管理监督约束人事管理领导干部领导班子建设考核评价体系

电子选举系统中数据库高可用性技术的研究与应用

随着信息化时代的到来，国内各级人（党）代会开始使用电子选举系统进行选举。数据库系统作为电子选举系统的核心，不仅存储了选举过程中所有重要的数据，而且是子系统之间相互通信的重

学位

电子选举系统数据库高可用性数学模型

基于结构张量的图像融合

图像融合作为一个新兴的学科有着广阔的发展前景。它的目的是对来自不同传感器的源图像信息进行提取与综合,从而获得对同一场景或目标更为全面、更为准确、更为可靠的图像描

学位

图像融合小波变换线性结构张量多尺度非线性结构张量

把党的先进性建设落实到工作实践中去

胡锦涛总书记指出,检验先进性教育活动的成效,要坚持“实践标准”和“群众标准”。党的先进性要求总是与党在一定历史时期的中心任务相关联,党的先进性建设,最根本的还是要体

期刊

中心任务先进性要求教育活动历史时期领导干部民主生活会违法违纪案件县域经济发展务工经商经济开发

分析如何加强烟草企业往来账款管理

往来账款清理作为企业管理不可或缺的重要组成部分,是一项长期而复杂的工作,涉及面广,政策性强,这就要求我们将其作为一个社会问题来看待.本文介绍了烟草企业往来账款中所出

期刊

烟草企业往来账款清理工作

FUJIAN TO BUILD LARGE TA—NB MINES

Jointly organized by the Fujian MinbeiGeological Prospecting Party,Nanping Mining Development Corp.and CNNC’sNingxia Nonferrous Metals Smelter,theMinning Tant

期刊

Fujianorganizedjointly

Hive中的多维索引性能优化及评测

其他学术论文