MapReduce框架下的数据索引应用研究

来源 :湖北大学 | 被引量 : 0次 | 上传用户:hhzzmm
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着云计算和物联网技术的发展,传感器和微处理器无处不在,人们已经身处于大数据时代,数据规模呈指数级增长,复杂性也越来越高。如何有效地管理海量数据,提高海量数据的查询分析能力,是学术界的研究热点。MapReduce编程模型把对海量数据(大于1TB)的操作,分解成多个并行计算指令,跨大量的计算节点并行处理,是大数据的关键技术之一。本文基于MapReduce框架,开展数据索引技术的研究:首先,本文分析了 MapReduce编程模型在大规模集群上的数据和任务的并行计算与处理优势,基于MapReduce框架优化数据块划分和数据存储的方法,依据相关性和分布性原则将划分后的数据均匀分配到数据块中。接着,本文分析了传统索引技术、高维索引技术以及MapReduce框架下的索引技术。近似向量表示法通过将高维向量近似地表示成对应的简单向量,以达到简化搜索空间的效果。一维向量转换法是将高维向量转换成一维表示形式。位码索引结合近似向量表示法和一维向量转换法两种思想,压缩高维向量为二维向量表示形式。本文基于位码索引进行高维向量压缩,设计分布式的双层空间索引结构,检索时利用二维位码索引值实现三层数据过滤,大大缩小搜索范围和高维向量计算代价。然后,本文还对海量数据索引的应用进行了研究。大数据时代带来“资源过载”问题,给各种数据查询系统带来了新的挑战。个性化推荐系统是比较常见的人工智能应用,提出基于双层索引机制的并行个性化推荐查询方法,并基于所设计的数据划分策略,离线完成海量Web资源的聚类划分,从而提高了应用的查询效率。最后,本文通过实验进行验证所提出方法的有效性。实验结果表明基于MapReduce的数据划分策略及高维数据双层索引对高维数据查询效率具有明显提升效果,实用性比较强。
其他文献
过渡金属磷酸盐化合物作为无机非金属材料的一个分支,它结合了磷酸盐丰富结构化学的特征以及过渡金属优异的光、电、磁等性能的特性,因此成为了十分具有潜力的新型晶体材料并
超级电容器是一种新型的能量储存装置,可以快速地充放电,但是与电池相比,其能量储存能力通常相对较低。将具有定制形貌和性能的纳米材料应用于超级电容器,将会在其固有的高功
在管理系统的研发过程中,开发人员常常会面对重复性的模块开发设计和代码编写,这样不仅造成很多资源的浪费和开发时间的延长,也增加了企业的开发成本,应用程序在维护性、扩展
随着税务系统中的信息化程度越来越高,仅仅只依靠税务系统内部的生产数据,已经无法满足工作人员对税务数据深入分析与利用的需要。因此引入并利用好工商、质监、能源等第三方
当前我国进入经济发展的快车道,社会转型加速,民间纠纷数量急剧上升,如何有效且快速地消解社会矛盾纠纷、实现社会“善治”成为众多学者所关注的热点。文章以治安调解这一“公权力”与“私权利”交叉结合的行政性活动作为研究对象,透视治安实践中各方当事人与基层警察之间的关系和博弈,力求为基层的治安调解实践提供积极有益的理论和策略支持。同时,本文关注到一旦“公权力”介入到私人意思自治的领域内,如果缺乏相关的制度性
近年来,纳米材料因其独特的特性而备受关注,而传统的制备方法如水热法、化学气相沉淀法、溶胶-凝胶法、电化学法等大多具有污染严重,设备成本昂贵,工艺复杂等缺点。等离子体
黄连素是一种广泛应用的抗菌药物,具有很强的抗氧化降解性能,可以干扰细菌生长繁殖,同时也是制药废水中的一种有机物质。研究表明,黄连素物质结构稳定、可生化性差且毒性强,使得一般水处理方法很难得以应用,因此需要探寻一种高效的去除方法。本研究设计了高效的 TiO2PECO(Photoelectrocatalytic Oxidation,PECO)和 E-Fenton(Electrolytic-Fenton
近些年,随着商业银行及政府部门对于金融卡需求的改变,金融卡制造业向着个性化、盈利性强、多功能方向设计和生产金融卡。金融卡的生产技术工艺越来越复杂,且成本亦越来越高
纳米压印是一种高效、低耗的复制加工方法,在微机电系统领域中具有很高的应用范围。相比传统的工艺而言,纳米压印复制方法在材料、结构、集成度方面有很大的进步。而滚动热压
由于现代工业的高速发展,人们对板带材的质量要求也在不断的提高,面板带材精度的最重要指标之一就是厚度,因此对板带材厚度进行深入的研究对现代工业的发展是非常重要的。本