论文部分内容阅读
万维网(World Wide Web,WWW)的高速发展和快速普及导致网络信息爆炸性地增长,互联网(Internet)已经成为最大的非结构化数据库。但是,基于全文检索的搜索引擎已经不能满足人们对信息检索的需求。地理信息检索(Geographic Information Retrieval,GIR)是近十年来发展起来的互联网上的新应用。它在地理知识库的支持下,实现了自动识别网页文本中的地理信息和计算网页文本的地理位置。那么,这个地理知识库又是什么昵?地理信息系统(Geographic Information System,GIS)是管理和处理空间数据的最重要工具。它基于科学的视角表达客观世界,实现了外部地理空间的客观构建。但是,文本中的地理空间是认知的,它与GIS空间的表达方式完全不同。这就导致传统地理信息系统不能支持基于地理语义的GIR应用。目前,GIR使用的知识库有地名库,地名辞典和地理本体。实际上,这些知识库只是存储了关于场所(Place)的知识,而不是地理实体的知识。因此,现有的GIR技术只能从文本中提取有限的地理语义(即只能获得文本中地理实体的集合,而不能理解这些地理实体组合在一起所传递的意义)。本论文研究的目的是:在认知理论的基础上提出和建立一个顾及认知的GIS语义模型(cognition Informed GIS Semantic Model,CIGSM),并且基于这个模型设计和发展一个顾及认知的地理信息原型系统(Cognition Informed GIS,CIGIS)。不同于传统地理信息系统,CIGSM模型是以认知的视角表达客观世界。这种地理空间的认知构建同文本中的空间表达相一致。因此,我们认为CIGSM模型对实现文本地理语义的理解至关重要。在CIGIS的支持下,新GIR技术能够提取文本中的深层地理语义(即能够理解文本中地理实体组合在一起所传递的意义)。
在地理信息科学领域中,一些学者已经提出通过在GIS中集成认知理论提高GIS的语义表达能力。迄今为止,已有少量的原型系统出现。但是与它们松散的集成方式不同,CIGSM则是完全基于认知理论建立的GIS语义模型,它实现了地理空间的认知表达。在相关认知理论综述的基础上,本论文提出了CIGSM的概念框架,它是我们对CIGSM的总体认识。CIGSM模型中既存储了低层的地理实例,又支持高层的地理概念。其中,地理实例记录了基本层次类别上的地理实体知识,它反映了外部地理实体在人脑长时记忆中的心理表征。概念知识则是一种模式知识,它是人类一切智能活动的基础。但是,目前不管是GIS还是GIR使用的地理知识库都不支持这种一般性知识。CIGSM模型的地理概念是建立在样例理论基础上,也就是说CIGSM中不存在概念的抽象定义或者描述,概念表征为包含在概念中的一组样例。
那么如何由地理实体产生地理概念呢?本论文提出了认知模型是CIGSM实现概念形成和概念功能的机制。首先,随着语境的不同选择不同的地理实例作为表征概念的样例,实现了认知概念的模糊性和动态性特征。其次,分类,预测和概念映射是概念的三个重要功能。心理学家认为相似在类别分类中起到了基础性作用。基于相似理论,本论文建立了地理概念的分类,预测以及映射的形式化模型。
最后,为了验证模型的有效性,在CIGSM模型基础上本论文设计和发展了一个原型系统CIGIS,并将其应用在了地理信息检索中。基于CIGIS中的模式知识(地理概念)和实例知识(地理实体),本论文提出了一个新颖的地理信息检索技术。原型实验研究表明,同现有GIR的有限地理语义提取相比,通过文本模式的分类和模式实例的识别,基于CIGIS的GIR实现了文本深层地理语义的理解。
从理论意义上讲,通过本论文的研究表明我们可以在认知理论的基础上建立GIS语义模型,它以更接近用户的视角(认知视角)表达客观世界,实现地理空间的认知构建。从应用意义上讲,首先CIGSM模型反映了外部地理空间在记忆中的表征,它和自然语言文本中的地理空间表达方式是一致的。其次,模式是语言理解的基础,CIGSM模型实现了地理概念模式的动态形成和智能处理功能。因此,基于CIGSM模型发展的CIGIS能够实现文本的地理语义理解,为互联网上基于地理语义的新应用(例如,地理信息检索,Web语义网)提供了基础性支持。