【摘 要】
:
随着数据爆炸式增长,如何及时有效地对大数据进行分析成为一项研究热点.连接算法在数据分析、数据库查询等众多领域具有广泛应用.非等值连接中的范围连接经常用于查找连接属性值相差在一定范围内的记录,需要进行数据源间的笛卡尔积操作,目前大数据分析平台都没有提供对范围连接的支持.此外,数据倾斜在实际应用中普遍存在,导致并行系统负载不均,严重影响连接查询性能.为了解决这些问题,提出一种适用于大数据分析的抗倾斜范
【机 构】
:
深圳市云计算关键技术与应用重点实验室(SPCCTA)(北京大学信息工程学院) 深圳518055;高可信软件技术教育部重点实验室(北京大学) 北京100871
论文部分内容阅读
随着数据爆炸式增长,如何及时有效地对大数据进行分析成为一项研究热点.连接算法在数据分析、数据库查询等众多领域具有广泛应用.非等值连接中的范围连接经常用于查找连接属性值相差在一定范围内的记录,需要进行数据源间的笛卡尔积操作,目前大数据分析平台都没有提供对范围连接的支持.此外,数据倾斜在实际应用中普遍存在,导致并行系统负载不均,严重影响连接查询性能.为了解决这些问题,提出一种适用于大数据分析的抗倾斜范围连接算法(skew insensitive range join,SIRJ),通过桶划分方法进行范围连接,同时避免了数据倾斜带来的负载不均和内存溢出等问题.最后,在平衡数据集和倾斜数据集下进行了实验,通过与先进方法对比,验证了SIRJ算法在网络传输代价、运行时间和负载均衡等方面更具优势.
其他文献
分析高炉空冷器冬季系统运行特点,在空冷器顶部增设冬季防冻装置,通过将空冷器排气管并联至防冻装置的集气包,利用自动排气阀排气及软水密闭循环原理,使空冷器顶部积存气、水能够循环流动,死水变活水,彻底解决空冷器排气管冻裂、漏水问题,从而确保整个高炉软水冷却系统安全稳定运行,满足高炉生产.
安全管理体系的有效建立以及高效运行,决定了焦炉生产能否安全稳定顺行,开展人本管理,突出以保护职工的人身健康为核心,做好现场隐患整改,消除生产设备缺陷,编制岗位安全操作标准,以编促推,抓好重点危险源,确保以点带面,依靠四大标准化体系建设,打造坚实安全防卫体系,强化六大关键环节,实施立体安全监管,七大安全创新管理方法,确保安全管理落到实处,构建“13467”安全管理模式,促使职工“人人参与、齐抓共管”
本文主要对莱钢能源动力厂结合钢铁冶金企业自备电厂现状,开发25MW机组仿真安全培训系统并应用于安全培训的情况进行了阐述,介绍了系统功能、硬件配置、软件功能、过程模型和就地操作站,应用该系统通过有效的技术手段,使安全教育培训工作从纸上走入到全景实践环境中,人员安全作业素质得到有效提升,大大减少了热力系统的岗位操作事故,有效降低了因事故停炉、停机、电气操作故障造成的系统性波动,为能源动力厂全燃煤气发电
山钢股份莱芜分公司焦化厂动力车间1#变电站树立了“千分之一的安全隐患可能导致百分之百的安全事故”的理念,在安全生产中创新开展安全活动,与6S管理方法相结合,推进班组安全管理精细化,与安全制度管理相结合,推进安全生产制管理全面化,与设备安全运行相结合,推进设备安全运行标准化,与创新安全活动相结合,推进员工安全意识本能化,与春季清扫保养相结合,推进设备备用率百分百。
莱钢板带厂1500mm冷轧可逆轧机机旁操作箱操作工人,存在噪声、辐射危害风险,并有一定安全风险,通过远程控制自动化改造,将机旁操作任务调整到主操作台,实现了轧钢过程的远程操作,极大地改善了操作工人的工作环境和劳动强度,操作台设置于大于15米距离远程操作,双层玻璃密封,噪声按日接触时间8小时,检测操作位置噪声65dB (A),远小于接触限值75dB(A);远离射线源和物体打击范围,较好地降低了作业风
按照国家、河北省、唐山市安监局要求,根据《企业安全生产标准化基本规范》(AQ/T9006)及相关行业安全生产标准和规范的规定,全面开展企业安全生产标准化建设,开展自查评分,对照标准整改,编制冶金安全标准化一级企业自评报告,安全生产取得了好的绩效,实现了重伤、工亡、重大设备、重大交通、重大火灾五种重大事故为零的目标。发生轻伤事故7起,轻伤7人。经济损失比唐山市政府和河北钢铁集团下达的安全控制指标减少
本文对唐钢公司及其安全保障体系建设做了简单介绍,安全文化建设重点工作是要树立先进安全工作理念,推行安全生产七条准则,加强安全物态文化建设,筑牢安全生产基础,完善安全制度文化建设,形成统一有效的安全标准规范,加强安全行为文化建设,持续提升全体员工安全素养,安全元素融入5S管理,取得了良好的经济效益和社会效益。
本文介绍了电容电流和消弧线圈容量的计算方法,热电厂35kV系统电容电流的现状及危害,阐述了消弧线圈成套装置的作用及工作原理,利用消弧线圈产生的感性电流补偿小电流接地系统发生单相接地的电容电流,减少故障点的接地电流值;减缓电弧熄灭时故障点恢复电压的卜升速度;降低铁磁谐振发生的概率;减小故障点的接地电流值,使电弧快速熄灭,从而减小接地故障扩大概率;降低系统雷击跳闸率;发生单相接地时进行接地选线,从而判
本文介绍了邯钢炼铁部如何建立隐患排查整治长效机制,构建责任制框架,完善责任落实跟踪,至上而下,至下而上,层层传递,构建检查机制,有标准,有检查,有跟踪,有奖惩,通过建立隐患排查整治的长效机制的前后对比,隐患排查整改无论是人还是物、无论“质”还是“量”,都发生了很大的变化,2012年至今,炼铁部实现了安全事故为零的控制目标。
代价敏感决策树是数据挖掘中的一个热点问题,它的目标是使得样例的误分类代价和属性检测代价的总和最小化.传统决策树分类算法假定类分布平衡或误分类代价均衡,在处理不平衡数据时,效果不够理想.本文提出一种基于评分策略的代价敏感决策树,它可以产生较少的总代价并且针对少数类具有更好的识别能力;传统的决策树采用"严格"的分类方法,无法有效地处理样例属性中的离群值,进而造成类别的误判,导致产生较高的分类总代价.提