论文部分内容阅读
由OGC制定的地理标记语言GML,为GIS空间数据的建模、集成与共享提供了统一的标准与框架。基于GML规范的地理空间数据的共享和互操作是当前专家和学者研究的热点之一。目前基于GML的地理空间数据主要在原生数据库或者关系数据库下进行存储和管理,导致了在多台服务器中并行处理时效率低下和通用性差等问题。因此本文通过对GML模式及数据结构的分析,以要素作为基于GML的地理空间数据在Hadoop框架下的最小存储单元,将海量基于GML的地理空间数据的大规模操作分布给网络中的每个节点处理,实现了基于GML的地理空间数据的分布式存储和并行查询方法。主要研究内容包括以下几个方面: (1)分析了基于GML的地理空间数据表达的理论基础。通过对GML特征、GML核心模式、GML应用模式和GML的数据模型的研究,并以GML建模为例,探索了基于GML的地理空间数据的表达方法。 (2)构建Hadoop环境下基于GML的地理空间数据存储模型。在对HBase的存储机制及数据结构研究的基础上,通过对GML应用模式及实例文档进行解析,将要素作为GML空间数据在Hadoop框架下的最小存储单元,并设计其存储结构。利用HDFS和HBase进行数据节点的部署,并在主服务器MasterServer端建立与其构成GML要素之间的映射关系,实现数据的快速存取。 (3)提出一种基于MapReudce模式的GML空间数据并行化查询方法。在对单机环境下GML空间数据查询方法及原理研究的基础上,设计了一种MapReduce模式下基于GML的地理空间数据并行查询框架,探索了一种基于GML的K最邻近查询并行化改进方法,实现基于GML的地理空间数据并行查询。 (4)设计了基于GML的城市交通信息分布式组织方法。根据城市交通信息具有种类多、变化多、属性多等特点,对交通实体按功能分层划分,借助GML语言设计城市交通网模型,并以HBase面向列存储机制为基于GML的城市交通网建立物理结构,设计了基于GML的城市交通信息的存储与查询方法。 本文以HDFS和HBase作为存储模型,以MapReduce作为计算框架构建了Hadoop环境下基于GML的地理空间数据的存储模型,并在该模型的基础上,对传统GML空间数据查询方法进行并行化改进,设计了MapReduce模式下基于GML的地理空间数据并行化查询框架,为基于GML的地理空间数据的分布式存储与查询提供了新的思路。