基于Ontology的信息检索技术研究

来源 :南京大学 | 被引量 : 0次 | 上传用户:spirit_if
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着Internet的快速发展,网上信息资源越来越丰富,网络已经成为人们获取信息的重要途径。人们通常使用各种信息检索系统来寻找需要的信息,而现有的信息检索系统存在一些不足,如:用户仅仅通过关键词难以向检索系统准确提交所需信息的描述;系统采用带权值的词条序列表示文档内容,难以明确表示自然语言文本中所包含的语义信息等。这些不足使得传统的信息检索系统在准确性、易用性等方面仍然存在诸多问题,其效果不尽人意。 本文在对信息检索系统的现存问题进行剖析的基础上,提出了一种基于Ontology的信息检索技术,并就其中涉及的关键技术,如检索请求处理、文档内容表示、信息索引与检索技术等进行了探讨和研究。本文的主要工作可以概括为以下几个方面: (1)提出了一种基于Ontology的信息检索技术 本文首先分析了信息检索研究所涉及的若干关键技术,并指出了传统检索技术存在的问题;在此基础上,提出了一种基于Ontology的信息检索技术,该技术的核心思想是:利用领域Ontology中的知识,对该领域内的文本内容进行分析,并根据领域Ontology中的概念将这些自然语言文本信息组织成具有一定结构的信息实体,同时将用户提交的检索请求也转化为对信息实体及相关信息的查询,以提供高精度的信息检索服务。 (2)提出了一种基于Ontology的检索请求处理方法 针对基于Ontology的信息检索技术的特点,本文在对检索请求处理相关技术进行分析的基础上,提出了一种基于Ontology的检索请求处理技术。该技术能够对用户以自然语言方式提出的问题进行理解,并将用户问题被转化为对信息实体及相关信息的查询,这样有利于提高信息检索的速度和精度。 (3)提出了基于信息实体的文档内容表示方法 文档内容主要是由自然语言组成,为了便于计算机的分析和处理,需要对文档内容进行形式化的描述,传统的信息检索模型通常采用带权值的词条序列来表示文档内容。结合向量空间模型和潜在语义分析模型的特点,本文对采用词条序列表示文档内容的方法进行了分析,在此基础上针对基于Ontology的信息检索技术的特点,提出了一种采用信息实体来表示文档内容的方法,并对该方法所涉及的一些关键技术进行了深入的研究。采用信息实体表示文档内容的方法,克服了传统信息检索模型中忽略关键词上下文信息的不足,能够在一定程度上实现基于语义的检索。 (4)设计了一种基于信息实体的检索引擎方案 信息检索系统中一个很重要的部分是系统的检索引擎,它主要包括两个方面的技术:信息的索引技术和信息的检索技术。本文在对传统的索引技术进行分析的基础上,设计了一种对信息实体建立索引的方案,并对索引文件的组织进行了详细阐述;针对信息实体的索引方案,本文给出了基于信息实体的检索技术;最后本文还对实体信息库的组织方式进行了探讨,并分析了如何对信息实体库进行维护。该检索引擎设计方案能够较好的完成对信息实体的索引及检索工作。 基于上述工作,结合具体项目的研究背景,本文设计和实现了一个基于Ontology的信息检索原型系统OntoSeagine,并在此基础上进行了实验。实验证明,该系统能够在一定程度上提高现有信息检索系统的性能。
其他文献
计算机取证日益成为计算机安全领域一个重要的研究热点。现有的计算机取证工具缺乏协同工作的机制,存在各自为政的缺点。本文通过将计算机取证平台技术与XML技术相结合,设计了
人民政协信息化建设是国家信息化建设的重要组成部分。高度重视和大力推进人民政协信息化建设,是信息时代加强人民政协工作、促进人民政协事业发展的必然要求。而现阶段诸城市
随着21世纪知识经济时代的来临,知识已成为经济增长和社会发展及企业组织成长的关键性资源,最大限度地掌握和利用知识越来越成为企业与组织信息化建设的核心。加上网络技术的飞
随着计算机网络技术和图形技术的飞速发展及其在人们日常生活中的日益普及,分布式虚拟环境的应用日益广泛,利用它可以创建多媒体通信、设计协作系统、实境式电子商务、网络游戏
本文研究了领域模型中的变化性的概念和分析策略,应用了面向特征的领域建模方法,针对奥运信息系统领域中的情况,形成一种领域建模过程,借助工具FMTool用特征模型对奥运住宿系统进
本文设计的网络协议栈模型实现在TinyOS小型操作系统之上,可运行在MicaMotes等多种传感器硬件和PowerTossim网络模拟器之上。同时在PowerTossim模拟器上进行了实现的性能评估
本文结合作战仿真的应用背景,主要工作有以下两点: ●提出了“基于受限语言解释器和动态寻径策略的可视化仿真”方案。该方案以受限语言解释器驱动系统运行。作战想定命令格
并行计算机系统中的容错技术是当今计算机科学研究的热点之一。网络容错是指,在互联网络中某些节点或链路发生故障的情形下,仍能保证网络中无故障的节点之间进行可靠的信息传送
  BOSS系统是目前电信企业中广泛使用的系统,它以客户服务、业务运营和管理为核心,以关键性事务操作为系统的主要功能,为网络运营商提供一个综合的业务运营和管理平台,提供全面
以J2EE多层开发环境为代表的企业级应用开发关键技术之一是建立一个数据持久化层,使得上层面向对象的开发环境和底层关系数据库管理系统做到无缝融合,应用开发者能够以更多的精