基于MapReduce的结构化查询机制的设计与实现

被引量 : 0次 | 上传用户:cpts
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着Web2.0网络应用和云计算服务的兴起和发展,海量数据的存储和处理是其主要的特性,新型互联网应用的新特性对传统的数据管理技术提出了新的挑战。传统的关系型数据管理系统在应对海量数据和急速增长的数据时,遇到了难以克服的难题,海量数据存储和超大规模计算的特点,使数据管理技术关注的重点从一致性C(Consistency)、可用性A(Availability)转向了可用性A(Availability)和分区耐受性P(Partition Tolerance),即在扩展性和可用性方面提出了更高的要求。已有的新型数据管理系统很好的满足了这两方面的要求,相比关系型数据管理系统,它们只支持基于Key上的条件和范围查询,而基于多列的条件和范围查询是数据管理系统一个普遍的需求,而已有的系统主要是通过依靠MapReduce强大的运算能力来全表扫描来实现,使查询性能随着数据规模的增长而变得效率不高。针对多维查询效率低的情况,本文在设计与实现了一套大规模分布式结构化数据存储系统LDS3基础上,还设计了一种基于MapReduce的性能较高、可靠性较强的、低存储开销的分布式查询机制。整个分布式结构化数据管理系统的所包括的基本工作和主要特色:1.在底层基于P2P的分布式存储系统的基础上,设计与实现了一套类BigTable的分布式结构化数据管理系统,主要包括:采用基于Linux C++设计了一套MapReduce的分布式计算框架和建立在这个计算框架上的分布式结构化数据管理系统。2.通过将表数据的多个副本采用不同的存放格局来加速多维查询。初始创建表的时候需要指定行记录的主键,而在本系统中除了指定主键外,还支持在其他列上创建索引,然后将表记录按照主键和各索引列分别排序,并按照这个顺序进行物理存储。针对主键和索引列上的条件和范围查询,首先通过子表服务器与子表的映射关系,将结果集的锁定在尽可能少的子表上,由于表的副本是按照主键和索引列有序存储,进而将结果集定位在子表的某一段连续的表记录,最大程度上减少了查询过程中的表数据的随机访问次数。结合基于MapReduce的分布式计算框架(DVCP),并行的在表数据的各副本并行进行过滤查询。3.通过设计与实现基于Bitcask的底层存储模型,相比基于MapFile的存储引擎,在效率和设计的复杂度方面具有明显的优势。
其他文献
鲁利亚与乔姆斯基一重神经机制,一重语言形式,貌似相斥,实则相融。学术背景方面,二人都能从跨学科的视角审视语言学研究。语言观方面,二人都认为语言是存在于人脑的客观实体
目的:探讨前列腺癌(Prostate Cancer,Pca)中医证型与实验室指标变化的关系。方法:73例前列腺癌患者,根据中医辨证分型,分为湿热蕴结型、气滞血瘀型、痰瘀闭阻型,分别检测补体
山西太原的晋祠在北宋中期发生了重要的变化,其主神由唐叔虞变为水神昭济圣母,成为当地民间赛社的重要神祇,也在熙宁间获得朝廷的敕封。熙丰新法是北宋乃至中国历史上的重要
<正>库客(www.kuke.com)于2006年9月正式建成发布,是国内第一家专注于非流行音乐发展的数字音乐图书馆。库客为所有音乐学习者和爱好者提供一个全面、丰富的数字音乐图书馆,
组织工程学是一门跨学科科学,包含材料工程和分子生物学的基本原理,目的是为了形成破损组织、器官的生物替代品;因此组织工程学也被称作‘再生医学’,是目前治疗难以治愈的疾
中国古村落数量多、分布广、个性鲜明,被称之为"传统文化的明珠"。然而随着现代经济飞速的发展,这颗"传统文化的明珠"正逐步走向消亡。伴随着古村落的消亡,许多由其形成与发
面对大数据时代,分析技术、移动互联、云计算等科技因素正在迅速改变人们的金融消费方式。国内商业银行亟需采用新技术手段,洞悉市场最新的变化趋势并作出快速响应,顺势而为,
目的探讨甲母质部分切除联合甲沟重建治疗嵌甲性甲沟炎的疗效。方法将嵌甲性甲沟炎30例随机分为对照组和治疗组,每组15例。对照组给予单纯拔甲+局部切开换药治疗。治疗组予以
尽管周蕾的《妇女与中国现代性:西方与东方之间的阅读政治》以女性主义批评的立场挖掘出由张爱玲小说《十八春》修改后的《半生缘》所蕴含的女性的细节之处与现代性的复杂关
目的探讨Sysmex XS-1000i实验室体外诊断血液分析仪的临床应用价值。方法采用随机和不随机选择标本方法,计算精密度、携带污染率、总重复性、白细胞分类的鉴定、可比性等对Sy