Hadoop的重复数据清理模型研究与实现

来源 :南华大学 | 被引量 : 20次 | 上传用户:luckyxiaoxi
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
当今,晶体管电路已经逐渐接近其物理上的性能极限,摩尔定律在2005年左右开始失效了,人类再也不能期待单个CPU的速度每隔18个月就翻一倍,单机的数据清理能力再也满足不了当今人们对海量数据的处理要求。基于大规模计算机集群的分布式并行计算将成为未来数据处理软件性能提升的主要途径。借助分布式计算近年来的应用热风,本研究从数据质量这个重要因素出发,设计并实现了一个基于Hadoop分布式框架的重复数据清理平台。Hadoop是一个开源的分布式计算框架。该分布式框架具备良好的扩充能力、较低的运作成本、较高的效率和较好的稳定性,而且它的Map/Reduce编程模式能够与本文的应用(重复数据清理)完美兼容,因此选择Hadoop框架作为本文研究的基础实验框架。当今世界,信息显得尤为宝贵,而数据质量是保证信息提取的一个重要前提。因此利用计算机来进行重复数据清理,减小信息系统数据的冗余度成为一个有意义的研究方向,这也是选择重复数据清理作为本文应用主题的关键原因。本文利用Hadoop的分布式数据处理特性,完成了完全重复数据清理并实现了数据按关键字段的排序过程,得到了初步聚类数据,然后采用单机预处理的方式对初步聚类数据进行再聚类。再聚类过程是该研究模型设计的重点和难点,它依靠一系列重要算法和清理规则做支撑,得到一个更加精确的聚类结果。经过再聚类处理后的数据最后交由Hadoop平台进行相似重复数据清理,得到最终的清理结果。本研究中,通过对该模型“过滤”后的实验数据进行分析,结果证实了本模型的可行性。此外通过时效对比实验,本人发现:随着数据量的增大,该模型在数据清理时的效率优势相比于单机越来越明显,从而说明了在实际应用中引入该分布式模型的必要性。最后本文通过分析Hadoop参数配置对本模型性能的影响,说明了Hadoop参数合理配置的重要性,并给出了相关的配置技巧,在一定程度上避免了硬件资源的浪费。
其他文献
ue*M#’#dkB4##8#”专利申请号:00109“7公开号:1278062申请日:00.06.23公开日:00.12.27申请人地址:(100084川C京市海淀区清华园申请人:清华大学发明人:隋森芳文摘:本发明属于生物技
ue*M#’#dkB4##8#”专利申请号:00109“7公开号:1278062申请日:00.06.23公开日:00.12.27申请人地址:(100084川C京市海淀区清华园申请人:清华大学发明人:隋森芳文摘:本发明属于生物技
采用两相溶胶-凝胶法,以正硅酸乙酯、氨水、乙醇、水、微量电解质为原料,制备出微米级单分散性二氧化硅微球,着重研究了微量电解质加入量、加料时间、加料方式、不同溶剂配比
集成电路的应用十分广泛,随着集成电路向着更小工艺尺寸,更高集成度方向发展,集成电路失效分析扮演着越来越重要的角色。一块芯片上集成的器件可达几千万,要想找到失效器件实
增速下降并不意味着市场饱和。3月底举行的CHIC2014上,户外品牌龙狮戴尔的展位被打造成一个英伦风情小镇,强调拼接、撞色的产品设计体现出其时尚户外的品牌定位,再配合驻唱的
“百年大计,教育为本,教育大计,德育为本”,初中阶段正是学生思想价值观形成的关键阶段,随着我国义务教育教学改革,成绩不再是衡量学生能力的唯一标准,而是要求学生全面发展,培养个人
随着社会的发展,会展在城市进步和经济发展的过程中扮演着越来越重要的角色,会展行业对于高素质人才的需求也越来越大,并且对高校会展专业毕业生的实践能力提出了更高的要求
在社会发展以及科学技术不断发展进步的背景下,在机械加工领域中,对零件加工处理提出了更高的技术要求。而热处理技术是一种应用比较广泛,对零件生产加工质量产生重要影响的技术
提及“恒源祥”营销界是褒贬不一。但是说起这一品牌的缔造者恒源祥集团董事长刘瑞旗,确是老字号中敢于尝鲜、锐意进取的品牌经营者。
目的:探讨小切口闭合复位插入钢板治疗胫骨远段的疗效。方法:26例胫骨远段骨折,通过闭合复位,小切口皮下插入钢板固定方法治疗,评价治疗临床疗效。结果:随访6个月~4a,骨折在4月内获得