论文部分内容阅读
中国生态系统研究网络(CERN)的科研人员通过观测、试验、调查等手段积累了大量的长期生态监测数据。然而,从原始数据的获取,到形成最终入库供今后科学研究分析查阅的历史资料,中间经历了多次的转抄、转发、汇总、格式转换等过程。都有可能因为人为或非人为的因素,造成数据质量问题,因此迫切需要有效方法对数据进行自动化校验,提高数据质量。
在多年的生态数据监测与校验过程中,CERN综合中心、各分中心及观测台站积累了许多宝贵的长期生态监测数据校验经验。一直以来,数据校验是以手工的方式进行,效率和准确性都不高。为此,本文对长期生态监测数据的上报流程和校验过程进行了深入的研究,根据长期生态监测数据的上报流程和数据校验过程特点,提出了基于规则的长期生态监测数据校验方法。本文的主要贡献是:
1.设计了长期生态监测数据校验规则及其参数配置的标准格式(RDF,Rule Definition Format)。规则采用XML格式,便于规则的分发、编辑与修改,且具有跨域与跨平台的特性,便于扩展和移植。
2.基于开源的模板语言Velocity,设计了数据校验的规则表达式语言。
3.设计了开放的、可扩展的规则工具箱(Rule Toolbox),用工具箱中提供的工具操作可轻松组装成一条数据校验规则,并支持规则的扩展。
4.面向CERN综合中心和土壤分中心的需求,实现了一个数据自动校验系统。
本文设计的数据自动校验方法及研发的数据自动校验系统,已在中国生态系统研究网络综合中心和土壤分中心中得到初步应用,并取得了良好的应用效果。