论文部分内容阅读
传统搜索引擎技术是基于关键词字符匹配的全文检索技术,主要借助目录、索引和关键词等方法来实现。由于提交的查询语句存在歧义性和不明确性,因此返回给用户的搜索集合中往往存在大量跟用户检索词主题无关的文档,导致返回给用户的检索结果并非用户需要的资源,查全率和准确率都太低。 因此,在这样的背景下,针对目前搜索引擎中存在的问题,本文研究的主要内容如下: 第一,本文研究一种基于语义标注的搜索引擎解决方案,即基于本体技术对检索资源进行语义标注,将标注的状态从机器可读转化到机器可理解。机器可理解的语义是通过用本体对数据进行定义、用标准的RDF或OWL语言进行表示、并用逻辑推理的方式进行处理来实现的。之后基于这种已经标注过的资源建立一个全文语义搜索引擎。从而能获取与用户提交的原查询关键词具有语义关系的文本资源,返回给用户的检索结果也更加贴近于用户原本的真实含义。 第二,基于这种应用,本文提出了一个由资源搜集模块、语义描述模块、语义标注模块语义推理模块、语义检索/输出模块构成的一个基于语义标注的软件工程领域语义搜索引擎原型系统。