论文部分内容阅读
现实世界中,一个地区或城市通常由不同的部门在不同的时间负责采集地理数据,并各自建立相应的地图数据库,在地理信息系统中亟待解决的问题是,如何将来源不同或者差异程度不同数据进行融合或者集成,以生成新的数据集,用于后续各研究。这里通常采用的技术是数字地图合并。数字地图合并在地理信息数据融合集成和增量分析领域中应用非常广泛,也是地理信息系统(GIS)工程建设的一个难点。数字地图合并技术通常包括两个过程——实体匹配以及地图合并,也就是先比较实体的几何、属性以及图形等信息,然后进行不同地区不同类型数据的融合和集成。通常该技术以实体匹配为基础,获得两个源数据集的属性和图形相关关系,再进行两者之间的融合,其中一幅图被称作“源图”或者“参考图”,而另一幅图则被称作“目的图”或者“调整图”。这两步缺一不可,都极为关键,其中实体匹配可看作是数字地图合并的第一步或基础,而后续的合并变换则是数字地图合并结果的最终来源。同名实体是指两幅图或两个数据库中反映现实世界同一地物或地物集的空间实体。同名实体的识别或匹配是通过分析空间实体的差异(由于制图误差、不同的应用目的或不同人的解释差异以及制图综合等因素的影响而产生)和相同或相似点以辨别出不同来源数据集中表示同一实体的技术。传统的地图实体匹配方法主要考虑的是实体的空间信息,也就是比较实体的空间位置、形状和方向等方面的相似性和差异,但是在GIS的地理数据库中,必须综合比较分析矢量数据的属性、空间和图形信息,才能得到最好的对比结果,以进行下一步的空间增量更新工作。本文在国内外学者的研究基础上,结合国家“863”项目——“支持增量更新的分布式异构空间数据无缝集成技术研究”,分析了现存地图实体匹配算法的优缺点,进而立足于GIS发展的前沿,探讨当前数据对比的新理论、方法和技术,提出了基于概率及复合指标的矢量数据对比技术,综合考虑矢量数据的属性、空间和图形信息,融合了多种信启、指标,并能有效解决非一对一的匹配情况。实验结果表明该方法具有良好的精度和召回率,对比结果可有效应用于矢量地图数据的增量更新。针对数据对比技术特点,本文主要从以下几个方面开展研究工作:第一章详细介绍了国内外地图实体匹配算法研究现状,并分析了现存算法的优点,总结当前存在且急需解决的缺点和不足,提出了探讨和研究新的匹配算法的必要性和可行性。第二章系统探讨了数字地图合并技术,包括数字地图合并的基本概念,数字地图合并的研究内容、范畴和技术流程,以及数字地图合并技术与其他技术的关系。第三章对数据对比技术中用到的矢量数据进行分析,包括其属性信息和空间信息。根据实体属性信息的特点,对属性信息的差异进行详细分类,以此设计实体属性结构规则和属性信息对比方法。此外,对实体空间信息的指标选取和计算方法进行了详细的介绍,并探讨了同一实体按指标不同权重选取阈值的办法。第四章总结了实体匹配中使用的各种非概率匹配算法,对传统的基于概率理论的实体匹配算法以及基于概率及复合指标的矢量数据对比算法进行了详细分析。介绍了传统的基于概率理论的匹配算法中候选集的确定、权重的选取以及单个实体匹配概率和数据集匹配概率的计算,新算法中按照实体空间信息特征分类,细化和精确了指标的计算,融入了属性对比,并进一步优化了阈值的选取。第五章中介绍了数据对比功能在MAPGIS7.x中从设计到实现的过程。首先介绍了数据对比的设计思想和总体框架,然后详细介绍为了实现数据对比模块需要在地理数据库中增加的主要接口,最后给出了实现之后的功能截图以及分析结果报告。