论文部分内容阅读
目前流行的信息搜索方法大都基于关键字的匹配,尽管已经出现了赋予文档、查询语句语义含义的检索模型,但这些模型本质上是从句形相关度的匹配转变为词汇语义相关度的匹配。由于现存本体差异性大,定义的语义质量参差不齐,且缺乏一种高效的知识发现、常识推理的机制,使得根据用户的真正意图进行语义搜索变得困难。本文以搜索计算机领域的科技论文为例,提出一个新颖的基于计算机领域本体的语义搜索方法。结合语义网的相关技术,用计算机领域本体表示文档中的知识,用求带权最短路径的方法扩展查询,推断出用户的真正意图,在搜索过程中,综合考虑句形和语义两种因素进行匹配查询,根据语义相似度排序相关文档。通过标准的固定数据集Cora测试证明,此模型能有效地提高查询准确率。本文的主要贡献如下:
(1)结合WordNet通用本体和ACMCSS构造计算机领域本体,以及文档和查询语句中的概念及语义实体关系,提供一个共享的和统一的语义内容理解,从而实现对文档集的语义搜索。
(2)提取查询的语义特征,对自然语言的查询语句进行分析,在搜索过程中,选择最短路径上的概念更全面地了解查询意图。此外,所提出的方法可以处理与基于关键字和基于语句的查询,使得语义搜索更方便,更人性化。
(3)采用高效的文档匹配排序方法。沿用传统的向量匹配方法,通过扩展语义网络掘出更多隐藏的、相关的语义信息,在查准率有所提升的情况下,保证其查全率的水平,使得整体的检索效率上升。