论文部分内容阅读
大数据时代的地球系统科学研究正逐渐转向以数据为驱动的数据密集型科学发现(“第四范式”)。而大数据在带来科学发现新机遇的同时,也使目标数据的获取如同“大海捞针”:不相关数据太多,相关数据被淹没。因此,高效而准确、全面地检索到目标数据及其相关数据,已成为地学研究与应用顺利开展的前提与关键。然而,在数据描述等方面普遍存在的语义异构现象,以及关键词在表达搜索意图时的局限性,使得以关键词匹配为主的检索方法在效率和结果质量上不再能满足用户需求。 语义检索通过理解用户检索意图和术语的上下文含义来提高检索精度、获取更多相关结果。它具备语义推理功能,实现了基于语义上的匹配,成为解决数据高效、精准检索问题的科学解决方案。本体是一种领域知识库,其以形式化的方法和规范化的语言对领域概念及其关联进行了明确的说明,是实现语义检索的基础之一。另外,时间是地学数据的本质属性和主要内容,各种显性或隐性的时间关系是地学数据最基本的关系之一。因此,研究地学数据时间本体理论和技术,将有利于实现地学数据的语义检索,具有一定的理论和实际意义。 为此,本文首先对地学数据中时间概念与特征从4个方面进行了分析概括。然后,定义了时间坐标系、时间位置与距离等概念,论述了其表达函数和形式化方法,扩展了时间拓扑关系等内容。据此,建立了包含时间概念、量测函数、表达方法等在内的地学数据时间本体5元组模型。随后,论述了新的本体模块化构建方法与基于Jena TDB(Triple Database)的本体持久化管理方法的流程和技术。同时,提出了由基础时间本体和领域时间本体两大主模块组成的地学数据时间本体库框架。以地质年代本体为例,文章对前文所述理论和技术方法进行了验证,完成了由基础层、领域层和应用层组成的地质年代本体的设计、构建和管理。文章最后对基于时间本体的数据语义检索方法和实现流程等进行了研究,并基于Jena框架等开发了B/S(Browser/Server)模式的可扩展的地学数据语义检索系统。基于此系统开展的一系列检索实验及其评价结果证明,本文之研究具有很强的科学性和实用性,不仅提高了数据检索的查全率等,同时具有一定的关联数据发现能力,效率上也基本能满足应用要求。 本文对地学数据时间本体及其在语义检索中的应用研究,不仅实现了地学数据的语义检索,在一定程度上解决了地学数据的智能、精准、全面检索发现问题,对时空数据的挖掘分析与共享交流、传播也起到很好的推动作用,具有一定的理论和实际意义。同时也丰富了时间本体和语义检索在理论和应用方面的内容。