论文部分内容阅读
语义信息检索早在上世纪80年代就开始讨论,但是由于受到传统检索技术的限制,语义信息处理一直得不到很好地发展。伴随着检索技术的升级、处理自然语言能力的提高和人工智能领域的发展,国内许多著名学者开始研究一些语义信息检索模型。深入研究发现本体在揭示和处理描述概念的语义方面都有很大建设后,基于语义层面,将本体应用在语义信息检索领域得到了很大发展。概念格是德国wille教授于1987年提出来的,包括概念的内涵和外延,内涵定义概念的语义;外延定义概念语义对应的具象事物。它可以挖掘更深层次的隐含语义,形式背景的层级结构可以描述概念、类、属性之间蕴涵的关系,hasse图可以将检索匹配的概念可视化。因此概念格成为数据分析与数据组织的有力工具之一,它广泛应用在很多领域,在图书情报领域主要应用是:信息检索、数字图书馆知识组织、知识表示、本体论和数据挖掘分析等方面。本文的设计思想是:语义信息检索系统通过概念间的语义关系,分辨文档--特征词间的映射关系以便提高信息检索的查准率。概念间的语义关系揭示需要借助形式背景,它是概念内涵、概念外延和概念之间的关系即属性、对象和对象-属性间关系构成的三元组,形式背景中的对象—属性与文档—特征词对应,概念格可以通过形式背景的层级结构和对象-属性之间的映射关系阐述概念的内涵和外延,挖掘更深层次的语义关系,设计一个概念格检索机制,借用本体的建模语言,从而构建基于概念格的语义信息检索模型。具体来说,按照建模自顶向下的方法阐述了基于概念格的语义信息检索模型框架包含的四层,分别为:人机交互界面、服务中间层、数据存储层和网络层(操作系统层和网络传输层),其中重点是服务中间层和数据存储层,他们构成了语义信息检索模型的核心;在分析的基础上简单叙述了四层之间的联系;在详细分析的基础上提出三个建立基于概念格的语义信息检索模型的原则:概念格以本体为基础、宏观上概念格应用在检索领域遵循的思想和检索结果的二次组织。其中概念格以本体为基础从六个角度:概念描述角度、概念间关系角度、知识挖掘角度、知识组织角度、知识推理角度和知识检索角度阐述。遵循这些原则和微观上构建模型依据构建了语义信息检索简要模型,对简要模型核心机制扩充后得到语义信息检索具体模型。针对设计模型,我们以运动会上球类运动为研究对象进行案例分析,并将检索结果和关键词检索结果在查全率和查准率两个方面作对比研究,得出将概念格应用在语义信息检索领域是有研究意义的。