论文部分内容阅读
随着Internet的快速发展,网上信息资源越来越丰富,网络已经成为人们获取信息的重要途径。人们通常使用各种信息检索系统来寻找需要的信息,而现有的信息检索系统存在一些不足,如:用户仅仅通过关键词难以向检索系统准确提交所需信息的描述;系统采用带权值的词条序列表示文档内容,难以明确表示自然语言文本中所包含的语义信息等。这些不足使得传统的信息检索系统在准确性、易用性等方面仍然存在诸多问题,其效果不尽人意。
本文在对信息检索系统的现存问题进行剖析的基础上,提出了一种基于Ontology的信息检索技术,并就其中涉及的关键技术,如检索请求处理、文档内容表示、信息索引与检索技术等进行了探讨和研究。本文的主要工作可以概括为以下几个方面:
(1)提出了一种基于Ontology的信息检索技术
本文首先分析了信息检索研究所涉及的若干关键技术,并指出了传统检索技术存在的问题;在此基础上,提出了一种基于Ontology的信息检索技术,该技术的核心思想是:利用领域Ontology中的知识,对该领域内的文本内容进行分析,并根据领域Ontology中的概念将这些自然语言文本信息组织成具有一定结构的信息实体,同时将用户提交的检索请求也转化为对信息实体及相关信息的查询,以提供高精度的信息检索服务。
(2)提出了一种基于Ontology的检索请求处理方法
针对基于Ontology的信息检索技术的特点,本文在对检索请求处理相关技术进行分析的基础上,提出了一种基于Ontology的检索请求处理技术。该技术能够对用户以自然语言方式提出的问题进行理解,并将用户问题被转化为对信息实体及相关信息的查询,这样有利于提高信息检索的速度和精度。
(3)提出了基于信息实体的文档内容表示方法
文档内容主要是由自然语言组成,为了便于计算机的分析和处理,需要对文档内容进行形式化的描述,传统的信息检索模型通常采用带权值的词条序列来表示文档内容。结合向量空间模型和潜在语义分析模型的特点,本文对采用词条序列表示文档内容的方法进行了分析,在此基础上针对基于Ontology的信息检索技术的特点,提出了一种采用信息实体来表示文档内容的方法,并对该方法所涉及的一些关键技术进行了深入的研究。采用信息实体表示文档内容的方法,克服了传统信息检索模型中忽略关键词上下文信息的不足,能够在一定程度上实现基于语义的检索。
(4)设计了一种基于信息实体的检索引擎方案
信息检索系统中一个很重要的部分是系统的检索引擎,它主要包括两个方面的技术:信息的索引技术和信息的检索技术。本文在对传统的索引技术进行分析的基础上,设计了一种对信息实体建立索引的方案,并对索引文件的组织进行了详细阐述;针对信息实体的索引方案,本文给出了基于信息实体的检索技术;最后本文还对实体信息库的组织方式进行了探讨,并分析了如何对信息实体库进行维护。该检索引擎设计方案能够较好的完成对信息实体的索引及检索工作。
基于上述工作,结合具体项目的研究背景,本文设计和实现了一个基于Ontology的信息检索原型系统OntoSeagine,并在此基础上进行了实验。实验证明,该系统能够在一定程度上提高现有信息检索系统的性能。