面向术语的信息检索关键问题研究

来源 :南京大学 | 被引量 : 0次 | 上传用户:YNiit562552379
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着信息技术的发展,特别是互联网在全球范围内的不断普及和应用,网络资源越来越丰富,互联网已经成为人们获取信息的必要途径和重要手段。科学技术的迅猛发展带来了大量的新术语,由于术语不仅能够帮助人们认知周围的客观事物,同时也是人们交流思想和传播知识的理想媒介,因此,准确理解术语在具体领域、场合及问题上的含义具有重要的意义。当人们不了解这些术语的确切含义时,往往借助于搜索引擎进行信息检索。如何有效地开发和利用丰富的网络信息资源,从大量的信息中快速准确地获取用户所需的术语定义以及相关信息,成为了一项极具研究和实用价值的课题。在面向术语的信息检索中,涉及的关键技术包括了术语定义的自动抽取以及术语语义相关性的计算,本文就这两个方面的内容进行了分析和研究。当前很多搜索引擎,虽然可以提供所查术语的大量解释或描述性信息,但往往无法直接提供完整的术语定义。靠人工从海量信息中查找到术语的定义是件费时费力的事情,因此,在传统信息检索技术的基础上,引入对术语定义的自动抽取技术,将检索的粒度由原来的以篇章为单位转变为以知识元为单位,帮助用户快速定位、抽取出所需的定义信息就非常关键。本文在分析现有的基于规则的术语定义句抽取方法特点的基础上,提出了一种将硬模板匹配与软模板匹配技术相结合的综合术语定义句抽取方法。本文在对传统信息检索技术分析后发现,传统搜索引擎提供的检索服务大多是通过对文档和查询关键字之间的机械匹配来实现的,缺乏对自然语言理解的支持。为了增强搜索引擎的智能化程度,提高用户的检索效率,在搜索引擎中加入对语义知识的理解就显得非常重要。在面向术语的信息检索中,计算术语间的语义相关度是进行语义知识理解的基础。本文在对现有的术语间语义相关度计算方法进行研究和总结的基础上,给出了使用维基百科进行相关度计算的可行性。本文充分挖掘了维基百科中的文本、链接以及分类信息,分析了各类语义资源以及相应相关度算法的优缺点。在此基础上,提出了一种基于中文维基百科的综合的术语间语义相关度算法。本文的主要工作包括以下几个方面。1)通过分析现有的基于规则的术语定义抽取方法的优势与不足,提出了一种结合硬模板匹配和软模板匹配技术的综合术语定义自动抽取方法。首先使用硬模板库对待抽取文本进行初步的定义句匹配抽取。其中,硬模板库由手工模板和词类格模板两部分组成。接着,通过使用基于N元语言模型的软模板匹配模型来计算待匹配文本中每个句子与软模板之间的匹配度,并通过设定上、下限阈值来抽取定义句或过滤掉错误召回的非定义句。2)结合维基百科预处理工具WikiPrep对中文维基百科中文本、链接以及分类信息进行了抽取和整理,并使用JGraphT图形工具库进行了维基百科分类图的自动构建。3)分析当前以维基百科为背景的语义相关度研究中的不足之处,充分挖掘了维基百科提供的包括文本信息、链接信息、分类信息在内的各种语义信息,并对各语义资源优缺点进行了分析,提出了一种基于特征融合的综合术语间语义相关度计算方法。本文最后设计实现了一个具有术语定义检索功能以及基于语义的概念查询扩展功能的信息检索原型系统,以验证本文所提出的各项关键技术的正确性和有效性。
其他文献
对计算机唇读的研究在人机智能接口、多媒体系统以及人脸数据压缩等领域具有重要的理论意义和实用价值.该文从一个唇读系统需要解决的基本问题出发,对唇读的三个基本技术问题
该文通过分析目前WWW应用开发采用的一些流行技术存在的不足之处及传统的分布计算方式的缺陷,以及通过分析CORBA原理与JAVA分布式编程技术,阐述了分布式对象技术的优良特性和
为了真正地提高工程应用中的软件和硬件的可靠性,研究人员已经提出了多种多样的方法,用以构建容错计算机系统,即试图采用容错结构来处理在开发过程后仍然存在的故障所产生的
该文在分析了传统的GIS数据模型和正在研究中的SDBMS模型的特点及缺陷后,提出了一个基于扩展的关系数据库系统的拓扑结构模型,并将其应用于国产分布式多媒体数据库管理系统DM
当今社会网络系统软件程序的开发变得愈来愈复杂,开发者一直面临着如何保证开发系统和其规模说明一致性问题的长期挑战.由网络软件故障引起的系统失效已越来越严重,给社会造
该论文以目前网络安全的现状为基础,重点讨论了操作系统和网络协议的安全模型,以其中的一些攻击手段和安全措施进行了较全面的分析,尤其针对ISO/OSI 协议的下三层模型及TCP协
内建自测试是一种具有很大发展潜力的可测性设计技术,在内建自测试结构中主要包括测试生成(TPG)、响应分析器(SA)、和测试控制器(TC).对内建自测试结构的研究主要有两点:如何
软件已经成为现代生活不可缺少的重要组成部分,因此软件质量显得尤为重要,然而软件缺陷的存在严重影响了软件质量。软件缺陷预测通过预测软件中可能存在的缺陷,帮助软件开发
面向对象数据库系统在80年代后期开始成为计算机领域中一个崭新的研究方向,其研究的内容主要集中在系统的体系结构、事务的并发控制、查询及优化、对象的组织和管理等方面.该
该文在商业DBMS的基础上,提出了一种基于粗糙集理论的数据挖掘模型,以利于信息不完备情况下的推理和决策问题的解决和研究.该模型从已知数据的初始决策系统出发,建立一系列的