基于Hadoop的动车组故障数据关联规则挖掘研究与实现

被引量 : 21次 | 上传用户:show20090907
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着我国高速铁路的建设和发展,经过近十年的运营,已积累了海量的高速动车组运行状况数据,并以TB数量级增长。如何利用动车组的海量故障数据进行分析,并进一步指导动车组的维修和维护工作,对动车组的故障诊断具有重要意义。面对高速铁路动车组运行状况数据所呈现出的多样化,容量大、高度复杂,速度快等特点,传统的数据挖掘算法已不能有效处理,其不足主要反映在耗时长、效率低、实时性差,难以满足目前动车组故障应急处理应用的需求。本论文将探索基于Hadoop的数据分析技术和方法,并应用于动车组故障诊断分析。本论文给出了基于分布式计算框架Hadoop的动车组故障诊断大数据解决方案,并通过将目前流行的基于Hadoop的关联规则挖掘算法Apriori算法进行优化,为提高动车组故障数据关联规则挖掘效率提供了有效方法,并在实际应用中得到了验证。本论文的工作有以下几方面:(1)在分析了MapReduce分布式计算框架、分布式文件系统HDFS、数据仓库Hive等Hadoop核心技术的基础上,给出了基于Hadoop的动车组故障分析大数据解决方案。搭建了Hadoop集群环境,并对动车组故障数据集进行数据清洗。(2)分析并实现了基于Hadoop的Apriori并行算法优化方案,提出了一种基于MapReduce迭代计算的改进算法MRAprioriT,并改进了集群的负载均衡。实验表明,改进算法比原始算法速度提高约36%,可满足动车组故障诊断实时性要求。(3)将改进后的算法MRAprioriT应用于实验室的动车组故障真实数据场景下,实现了基于Hadoop的动车组故障数据关联规则挖掘系统。论文所设计的动车组数据挖掘系统满足了特定的要求,具有较好的并发挖掘性能,提高了动车组故障数据分析的效率。
其他文献
医学研究中有时会遇到重复测量数据,而此类数据统计分析不当的现象在国内医学期刊中较为普遍,例如,只做单独效应分析,或用配伍组设计资料的方差分析来处理。针对此现象,本文
近几年来,随着市场环境的变化与市场竞争的日趋激烈,钢铁产品需求日趋小批量、多品种,及交货周期越来越短。小批量多品种的特点决定了生产工艺路径的复杂多变,交货周期短的特点导
随着康复医学与现代化科技的发展,康复设备的创新与发展也是日新月异。本文作者基于在康复设备研发方面的经验,结合康复评定、治疗、护理、管理四个方面的理论基础和国家针对
冷战后,美日同盟与美韩同盟从冷战结束之初同时弱化,发展为世纪之交"一强一弱"(美日同盟强、美韩同盟弱),而经过韩国李明博政府和日本鸠山内阁时期强弱态势的短暂逆转,自2010
作为中国传统文化中重要的一部分,汉字无论是作为一种读写工具,还是作为一种文化的传承,都是一个值得深入研究的课题。而文字的创造可以说又是艺术的发端。这里从汉字的图形
镗孔是机械加工中重要的一道工序,一般采用镗床进行零件的进一步加工,以提高精度、减小表面粗糙度,较好地纠正原来孔轴线的偏斜。然而船舶轴系和关键部件的加工和维修一般采用现
现阶段中国高速铁路许多硬件方面的技术已经达到世界领先水平,信息化建设也进入到高速发展阶段,合同管理是公司管理的重要组成职能,目前高速铁路企业(客专公司)合同管理从合
日本的中亚政策经历了四个阶段的变化,从最初的"经济援助"到"丝绸之路外交",再到"中亚+日本"对话机制以及"建立自由繁荣之弧",日本不断加大对中亚的外交力度,中亚地区已成为
随着服务管理时代的到来 ,非盈利组织在社会经济和生活中起着非常重要的作用 ,故被称为第三部门 ,而政府部门和私人企业则分别称为第一、第二部门。但由于政府部门是由各地方
今年是中华人民共和国成立五十周年。本文综述我国海洋探测技术五十年发展的主要成就,展望我国海洋探测高技术的近期发展。本文涉及的海洋探测技术包括:海洋环境自动观测技术、