动态地理空间数据的即时查询处理研究

来源 :中国科学院计算技术研究所 | 被引量 : 0次 | 上传用户:luweb
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
由于应用需求的驱动,以及基础科学技术、网络基础设施的快速发展,地理空间信息技术正在进入新的发展阶段。地理空间信息技术发展新阶段的特点突出表现在面向因特网和移动互联网的公众级应用,空间信息的广泛共享,空间信息服务的蓬勃发展及其广泛互操作等等。各类地理空间信息服务之间的互操作及与客户端应用之间的交互,将产生越来越多的动态地理空间数据,而对动态地理空间数据的即时处理效率将严重影响地理空间信息服务及客户端应用的性能。   本文以GML作为动态地理空间数据的描述格式,研究解决GML即时查询处理中的效率瓶颈问题。本文定义了GML即时查询语言,设计了GML即时查询套件GIOTk作为后续研究的实验平台,针对内存处理模式和流处理模式分别提出GML即时查询算法,并分别从解析模型和编码方式的角度进行优化,根据算法研究实现了即时查询套件GIQTk的各个组件,并探索了本文研究成果的应用模式。在以上几个方面,本文主要取得了以下创新性成果:   1)内置空间数据类型和空间运算符的GML即时查询语言   查询语言是进行查询处理研究的基础。针对GML的结构特点,本文基于XPath的路径导航机制提出GML即时查询语言SITPath。通过继承标准运算符,SITPath支持非空间属性查询条件的构造;同时增加了空间扩展,允许根据空间属性条件和非空间属性条件完成组合查询。SITPath的空间扩展包括节点检测时对空间数据类型的缺省支持(以简单要素模型为代表),定义基本空间信息运算符、空间关系运算符、空间分析运算符三类空间运算符,并通过扩展运算符接口支持与标准运算符的嵌套以及空间对象的手工输入。另外,针对流模式单次遍历顺序访问的限制,从动态地理空间数据查询处理的实际需求出发,定义了流模式支持的SITPath语言子集,在支持丰富的语言特性与实现高效的求值算法之间取得了较好的平衡。   2)基于查询表达式结果缓存表的内存模式即时查询   内存处理模式适用于需要实现丰富查询语言特性并且具有充足可用计算资源的情形,但可处理数据量受限于计算资源。基于内存模式,本文提出了支持完整SITPath语言的即时查询求值算法。通过在GML文档节点上挂接查询表达式片断的求值结果缓存列表,消除了基本求值算法由于大量重复计算带来的指数级复杂度。同时通过在空间数据元素节点上挂接空间对象缓存,避免了空间对象的重复构造。在该算法基础上,本文实现了GIQTk套件中的内存模式GML即时查询引擎组件MQE。理论和实验证明,查询表达式结果缓存表和空间对象缓存显著提高了内存模式SITPath查询求值算法的时间效率,但空间效率不够理想。   3)基于GML非抽取解析模型的内存模式即时查询优化   为了突破内存处理模式的局限性和解决缓存表方法带来的内存消耗问题,本文深入分析了由解析方式造成的内存模式处理效率低下的根源。从改变解析方式和精简数据结构的角度,本文基于非抽取解析方法设计了GML优化解析模型,并利用新解析模型对内存模式即时查询求值算法和内存模式GML即时查询引擎组件MQE完成了进一步优化。对比实验证明,GML优化解析模型大幅提高了内存模式下GML即时查询处理的时空效率,使得相同计算资源条件下能够处理更大的动态地理空间数据量。   4)基于TreeStack查询机模型的流模式即时查询   流处理模式适用于可用计算资源有限或待处理动态地理空间数据量过大的情形,但由于对数据访问方式的严格限制,难以支持丰富的查询语言特性。本文提出由多棵树构成的TreeStack查询机模型,并设计了通过一次遍历SITPath查询解析树即可完成的查询机构造算法。在TreeStack查询机模型基础上,本文设计了流模式即时查询求值算法,主要包括基于TraceStack运行时栈的激活匹配过程和基于谓词状态数组的谓词计算过程,并实现了GIQTk套件中的文本GML数据流即时查询引擎组件SQE-T。算法复杂度分析和对比实验证明,本文提出的查询机模型和查询求值算法与当前基于自动机模型的查询算法相比具有更好的时空效率。   5)基于EXI编码的流模式即时查询优化   为了解决文本GML编码冗余问题,进一步优化流模式即时查询处理,本文提出用EXI编码提高GML数据流的编码效率。本文分析了EXI编码的特点及其适于作为GML高效编码的原因,设计了支持空间数据类型优化的EXI编解码算法,实现了GIQTk套件中的EXI编解码处理器组件EEP和EDP。本文将TreeStack查询机模型和TraceStack求值算法应用于EXI编码GML数据流,提出EXI解码与查询求值同步的算法框架,实现了GIQTk套件中的EXI编码GML数据流即时查询引擎组件SQE-E。对比实验证明,EXI编码能够显著降低GML数据冗余,并且显著提高流模式即时查询处理的时空效率。
其他文献
随着微电子技术的不断发展,单芯片内集成计算机系统已经成为可能,片上系统在最近十多年里得到了飞速发展。在片上系统设计中,芯片的性能、面积、功耗、可测试性、兼容性、可靠性
科学数据在科研活动中起到越来越重要的作用,科学数据的共享与服务越来越得到科研人员的重视。在科学数据共享服务中,数据安全及保护技术扮演着非常重要的角色,有力的数据保护手
禽流感是一种高致病性的禽类传染病,近几年内爆发频率越来越高。为了对疫情的可能性和潜在危险性进行风险评估,及时预测、预防疫情的蔓延,保障人民生命安全、保障畜牧业发展和保
在计算机视觉领域中,如人脸识别、视频检索等,所获得的数据往往具有较高的维数。寻找数据的低维表示即维数约简是计算机视觉研究领域中的一个核心问题。最近几年,受生物模型启发
大数据和云存储在经济生活中广泛应用,系统数据量巨大,为减少冗余数据开销并保证数据可靠性和可用性,采用纠删码取代副本已经成为业界一种趋势。数据一致性是纠删码的本质属性,保
Ad Hoc网络是一种自组织多跳无线网络,其无线信道的共享性以及多链路间的信道干扰是影响该类型网络性能的主要因素。如何有效地降低信道干扰是改善Ad Hoc网络容量的核心问题。
当前网络空间安全的整体格局是易攻难守。传统的防御方法以阻挡和检测为主要手段,具有一定的被动性和滞后性。拟态防御作为一种“改变游戏规则”的主动防御技术将对这种格局产
近年来,随着植物新品种申请量的逐渐增多,审批业务和管理工作也相应繁重起来,纯粹依赖人工受理植物新品种申请的方法已经不能满足当前形势,需要研究并开发一套“林业植物新品
今天,基于对等网络(P2P,Peer-to-Peer)的文件共享应用占据了互联网骨干网络70%的流量,已经成为互联网中最为重要的一类应用。对等网络下基于关键字的资源搜索是该类应用中的核心
近些年来,元数据在科学研究中发挥着的日益关键的作用,科学数据元数据概括了科学数据的内容、背景、结构、内部关系和来源,对于科学数据的管理、分析、共享、集成和应用至关重要