大数据环境下Spark性能优化分析研究与应用

来源 :气象科技 | 被引量 : 0次 | 上传用户:airfly
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
针对长时间序列、多站点和多气象要素的大数据量查询需求,现有的CIMISS(China Integrated Meteorologi-cal Information Sharing System)存在支撑能力严重不足的问题.本研究使用广西气象站点建站至今的历史地面气象记录月报表数据资料和现有Hadoop集群物理资源,重新设计数据ETL流程,构建Parquet格式数据集并完成HDFS转换存储;嵌入Spark的Broadcast广播变量,优化Spark集群执行参数,提高了集群的处理并行度和SparkSql的关联查询效率.结果表明,Parquet格式数据集的最高压缩比超过95%,一次性大数据量的查询效率比原来提升了 1~5倍,并支持高并发访问,为各类相关预报预测业务的开展提供了有效的技术支撑.
其他文献
基于推动碳中和目标的前提下,为减少建筑能源使用,构建低碳、零碳建筑,以奥福时代广场为研究对象,采用DesignBuilder软件,针对建筑朝向对超高建筑能耗影响和节能率进行分析研究,得到冷负荷节能率最低的朝向为北、南北、东南北,热负荷节能率最低的朝向为西、东西和西北、东南北,综合得出最不利朝向为北,全年累计能耗节能率为1.09%.对今后超高层建筑节能设计、改造具有重要参考作用.
ERP沙盘模拟实训是一门新设的实践类课程,通过模拟对抗式的教学模式进行教学,旨在培养学生的团队意识和创新精神及企业竞争能力.根据企业模拟经营过程中产品、市场等各类信息的不对称,各团队参与度的不对称,在ERP沙盘实训中总结出众多对抗技巧.本文着重对企业模拟经营过程中的对抗技巧进行简单分析,首先阐述对抗前的准备,其次论述对抗中的决策,再次分析对抗战略,希望能够借此提升自身的企业经营管理能力.
伴随着我国经济实力的增强,以及科学技术的持续进步,消防信息化建设不断推进,基于调度指挥网络系统的服务种类不断增多,各业务系统对网络通信机房管理要求愈加严格,而作为消防网络通信机房维护管理人员对其发展要加以重视,提高消防网络通信机房管理水平,从环境、温湿度、防尘3个方面进行适当的优化.基于此,作者结合实践经验,在查阅大量的关于机房维护与管理参考文献的基础上撰写此文,文中总结现阶段消防网络通信机房维护存在的问题,提出全新的维修与管理策略.
利用常规观测和NCEP再分析资料,分析2008-2019年广西低温雨雪冰冻过程(简称低温过程).结果表明:广西低温过程分为稳定阻塞、减弱阻塞、两槽一脊及多波动型,稳定阻塞型持续8~15 d,其余类型小于等于6 d.稳定阻塞型中高纬补充的冷空气及低纬输送的水汽是广西低温过程持续的重要因素,700 hPa西南气流提供水汽和热量,有利于融化层及冻雨形成,低层宽广的温度锋区及大的平均锋生函数利于低温过程持续.稳定阻塞型具有云顶温度-10~0℃、低层冷垫≤-7℃、中层融化层≥8℃的冻雨温度层结,两槽一脊型则为云顶温
长期以来,大部分企业主要使用多协议标签交换虚拟专用网络(MPLS-VPN)技术与相对应的分支机构建立专线网络连接.随着企业生产规模的扩大以及对媒体业务流、数据分析和存储等需求的增加,企业越来越需要进一步管理其内部网络资源,这在一定程度上增加了企业的管理成本.为了能够有效改善企业网络,大多数企业都在寻找新的解决方案.软件定义广域网(SD-WAN)技术作为一种新的软件定义网络技术,有其自身的优势,是大多数企业网络的首选.本文分析了SD-WAN在企业组网中的具体应用,希望能够为相关企业起到一定的参考借鉴作用.
采用北京市国家大气探测试验基地2017年5月1日至2019年8月31日的微波辐射计观测结果,通过位温气块法反演了该地区的大气边界层高度,统计其日变化和月际变化特征,并与相应的探空反演结果进行对比.结果表明:日间大气边界层高度的变化特征与日照时长对应关系很好.除热力作用外,边界层高度受地面风速的影响较大,近地面的较强大风对大气边界层高度起到了抬升作用,导致1-4月的夜间边界层高度明显高于其他月.2月、3月、4月、9月和10月的日间大气扩散条件较好,最大边界层高度均超过了 3 km.月均最高大气边界层高度为1
基于国家气象信息中心全球地面气象观测站及非气象观测站逐时气温数据,应用分月阈值、区块阈值、纬带阈值及空间一致性综合检测方法,构建了 2016-2020年全球逐时地面气温数据集,并设计了可实时更新的质量检测流程,为全球预报服务和科研业务提供可靠的数据保障.近5年数据的检测结果表明,全球总的可疑错误数据率为0.85%,亚洲的可疑错误数据较多,占亚洲数据样本的1.67%,占全球可疑错误数据的72%左右,并以夏秋两季检出数据较多.79%左右的可疑数据是通过区块阈值与空间一致性方法检测出的非气象观测站点数据,站点极
移动通信的发展经历了从1G到5G的转变.在每一代通信技术的革新中,信息量处理都是成倍增长,而天线是解决信息处理问题以实现跨越式转变不可或缺的组件.为研究5G移动通信天线的关键技术和设计思路,本文从历代移动通信天线技术的演进和发展趋势出发,阐述了5G移动通信天线技术要求,提出了面向5G的天线系统架构选择与设计,希望对5G的不断发展提供技术参考.
随着现代社会与信息时代的不断进步发展,我国各个电力行业已经逐步进入了新的产业发展升级阶段,特别是电力行业,人们对电力资源的需求也在不断增加,市场经济发展带动了我国电力行业的升级与发展.电力系统配电线路作为我国电网建设以及电力运输的重要设备,其性能将会直接影响我国电力运输的稳定性与安全性.因此,各供电企业应该明确配网自动化通信系统的应用要点与功能,并且要重视配电自动化通信系统构建工作以及线路运行安全监管工作,强化PON技术的应用,完善配网自动化通信系统.本文将从配网自动化通信系统概述、PON技术应用要点与应
随着风云气象卫星事业的飞速发展,卫星观测通道数量不断增加、时间和空间分辨率不断提高,原始数据码速率已经由每秒几十兆比特上升为几百兆比特,不久将达到千兆以上.卫星的主要任务是获取遥感数据,从某种角度而言,卫星的价值等价于遥感数据的质量和大小.原始数据通过无线电载波传输至地面站,从载波中准确无误地解调出原始数据,是风云卫星观测系统最关键的环节,星地接口的核心,也是数据处理和服务的基础.为了提升解调性能,本文开展基于高速数字信号处理技术,设计数字解调的整体结构,分析载波恢复、交叉极化抵消、时钟恢复、均衡等关键模