精准降水估计与预报的机器学习方法研究

来源 :中国科学院大学 | 被引量 : 0次 | 上传用户:udbjqr
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
精准的降水估计与预报要求时空高分辨率与定量高精度,对水文监测、洪涝减灾、环境治理、科研活动、工农业生产、电力系统等方面具有重要意义。由于非线性的动态天气系统具有高度不确定性,传统基于物理模型和统计分析的气象方法在降水估计与预报中存在性能瓶颈,难以满足高分辨率条件下的精度要求,如何提升降水估计与预报的精准性在研究和应用领域都具有挑战性。随着气象技术的进步,中国现已建成覆盖全国的雷达、卫星、地面气象要素监测网络并发展了多样的数值模式预报,积累的气象数据呈爆炸式增长,为采用机器学习方法处理气象问题带来了机遇。因此,亟需研究新的机器学习方法,通过数据驱动的方式结合气象领域先验知识有效地挖掘气象大数据提升降水估计与预报准确性以满足应用需求。  本论文旨在回答精准降水估计与预报需要解决的三个关键问题,包括:定量降水估计、降水相态识别以及降水集合预报。本文从气象问题出发,研究了随机森林、不平衡数据采样、标签分布学习用于上述问题的方法。针对定量降水估计,提出了基于地形的加权随机森林(Terrain-based Weighted Random Forests,TWRF)方法,利用高分辨率雷达观测数据,考虑有效表征降水特点的雷达反射率垂直廓线在不同高度层的特征重要性,建立回归模型,并在建模中考虑了地形对降水的影响,提升了定量降水估计的准确性;针对降水相态识别,提出了基于马氏距离的适应性过采样(Adaptive Mahalanobis Distance-based Over-sampling,AMDO)方法,通过为分类器有效合成新样本应对降水相态识别中存在的多类、混合类型特征、混叠以及不平衡问题,提升了降水相态识别的准确性;针对降水集合预报,提出了基于气候概率的标签分布学习(Label Distribution Learning with Climate Probability,LDLCP)方法,利用多源数值模式预报,考虑天气系统的不确定性、气候在概率意义上的相似性以及预报变量之间的关联性,通过标签分布学习建立优化模型并给出相应的预报方法,提升了降水集合预报的准确性。以上三种方法在实际数据集及公开数据集上与当前主流的气象方法和相关的机器学习方法对比,取得了显著的性能提升,并已在业务中部署应用,为公众提供气象服务。  主要工作和创新点如下:  (1)提出了一种基于地形的加权随机森林降水估计方法(TWRF)。针对雷达定量降水估计性能不佳,该方法首先扩展雷达特征为整个反射率因子垂直廓线,进而提出加权随机森林回归模型改进传统随机森林,以随机决策树中节点拆分时的特征被选概率反映不同高度处理想条件的满足程度,并提出基于地形的建模策略,考虑了地形增强效应,有效提升复杂地形区域的降水估计效果。在实际降水过程上的实验表明:所提方法在偏差率、均方根误差、平均绝对偏差、平均偏差以及相关系数等评价指标上均优于对比方法。本方法中提出的数据处理、模型训练和测试的执行流程已工程化实现,形成气象产品。  (2)提出了一种基于马氏距离的适应性过采样相态识别方法(AMDO)。针对降水相态识别少类精确率低,该方法提出推广已有的基于马氏距离的过采样方法应对相态识别这种含有混合特征、带混叠的多类不平衡问题,进而提出部分平衡重采样并优化适应于主成分空间的采样,改善采样策略并提升采样效率,计算复杂度近似为O(Nlog(N))。在15个公开数据集以及2个实际数据集与主流方法进行对比,结果证实了所提方法处理多类不平衡问题的优越性,对相态识别提升了43.74%的少类精确率以及10.84%的平均精确率。本方法中提出的采样与多分类执行流程已工程化实现,形成气象产品。  (3)提出了一种基于气候概率的标签分布学习集合预报方法(LDLCP)。针对降水集合预报效果较差,该方法首次将集合预报问题形式化为标签分布学习问题,不依赖分布假设,优化预报分布与气候概率一致,进而提出新的针对回归问题的损失函数用于集合预报,并提出采用联合预报变量与相关变量共同建模,提升了模型的可解释性与预报能力。在实际降水集合预报数据上与主流方法的对比实验表明:所提方法取得了最优效果,对于降水预报降低了43.9%的均方根误差以及37.4%的平均CRPS。本方法提出的集合预报数据组织、处理、模型参数优化和预报输出的执行流程已工程化实现,正在试点应用。
其他文献
肺癌是世界上死亡率最高的癌症,尤其在发达工业国家。计算机辅助诊断(ComputerAided Diagnosis,CAD)为肺癌的早期诊断和治疗提供了有力的支持。CAD近年来逐渐成为医学影像学中
自20世纪80年代以来,智能优化算法通过模拟或揭示某些自然现象和过程而发展起来,为优化理论提供了新的思路和手段,并在经济与工程等领域得到了广泛应用。 量子进化计算(Quant
风险管理是管理学中一个重要分支。20世纪30年代,风险管理的理论已在美国出现,到50年代逐渐发展成为一门学科。目前,风险管理已经成为经济学界和企业界备受关注的热门学科。我国
脑诱发电位是指人为地对感觉器官施加刺激所引起的脑电位的变化。由于脑诱发电位与“特定”刺激的有关性以及与特定感觉回路的密切联系,使得它携带了关于大脑结构及功能的更多
随着机器人应用越来越广泛,机器人控制已经成为自动控制领域的热点问题之一。由于机器人系统存在惯性大、抗干扰性差等问题,需要对机器人控制方法进行研究。本文以连杆机器人为
指纹识别是指通过计算机,利用人体固有的指纹生理特征来进行个人身份鉴别的技术。由于人体指纹具有唯一性和不变性,使得指纹识别与传统的认证方法相比,具有更高的安全性和易用性
在无线温度变送器中,无线传感器网络技术被引入到工业温度检测技术中,实现了工业现场温度采集仪表的无线化,方便了现场温度变送器的安装,在保证可靠通讯的基础上降低了系统的成本
随着机动车保有量迅速增长,机动车尾气排放所造成的空气污染日益严重,机动车尾气已经成为城市环境最主要的污染源。全面实施机动车检测/维修制度已成为机动车污染防治工作的
随着数据库技术的发展和信息时代的来临,各行各业存储的数据量急剧增加,使得自动从数据库中获取有用的知识以提供决策支持已成为人们日益迫切的需要。粗糙集理论(Rough Set,RS)
生物特征识别是根据人体所固有的生理特征或行为特征来进行身份验证的技术。与计算机技术相结合,使得生物识别技术在许多领域得到了广泛的应用。作为生物特征识别方法中的一种