论文部分内容阅读
在大数据飞速发展的当下,日益庞大的信息资源使得各个领域都开始了量化的进程。与此同时,随着知识爆炸式增长与传播,学术信息资源也以前所未有的速度在急速膨胀着,并诞生了许多优秀的学术资源数据库,学术科研又迸发了新的生命力。然而,随着学术资源的获取途径逐渐增多,获取成本逐渐降低,科研人员对学术资源的需求也逐渐由对资源数量与知识存储载体的获取转向为对资源内含知识的获取,这是一个从资源广度到资源深度的需求转变过程,具体表现在其对学术资源的检索需求不再局限于文本资源层次,而是细化到研究方法、研究机构、研究结果和研究数据等更具体的资源层次。但常用的学术资源数据库所使用的检索方法,仍是以基于关键词匹配和基于文本内容匹配为主,并不能充分表达语义信息,难以满足科研用户对学术资源的检索需求。因此,本文研究了基于学术知识图谱的语义检索,借助知识图谱强大的语义关系网络,构建基于学术知识图谱的语义检索模型,实现对学术资源的语义检索,在探究学术知识图谱对学术资源检索系统的检索性能进行提升的同时,使其对科研用户检索语句的理解,能够从关键词层面的匹配提升到语义层面的匹配,为科研用户提供更具有语义关联的学术资源,从而改善用户的检索体验和检索效果。
本文的主要研究顺序如下:首先,在对现有的大规模学术知识图谱进行充分调研的基础上,针对大规模领域知识图谱构建门槛较高的问题,结合实际科研实验中对学术知识图谱的需求主要在于知识的组织结构而非图谱规模大小的情况,提出了一种在已开发完成的大规模知识图谱基础上,通过设定抽取规则获取其知识库子集数据进行知识图谱重构的方法,最终构建了实验型小规模学术知识图谱,并通过Neo4j完成了对知识图谱的存储;然后,构建了基于学术知识图谱的语义检索模型,其主要组成部分包括存储与索引模块、检索语句交互模块和语义分析模块,并对这些模块涉及的理论、技术和算法进行了研究分析,包括索引构建、自然语言分词处理与同义转换以及概念映射、语义扩展和语义推理等;最后,在借助Neo4j完成知识图谱存储的基础上,利用Lucene构建了实体索引,调用Cypher语句完成数据库查询,以及通过Python实现语义检索模型中相关算法功能,从而实现了基于学术知识图谱的语义检索模型的检索功能,并在实证评估环节中,通过设置多组检索词进行了测试,以查准率、查全率和F1值为检索性能评价指标对模型的检索性能进行了评估分析,并同传统的基于关键词匹配的检索方法进行了全面对比分析。
通过实证评估发现,将学术知识图谱应用于学术资源的语义检索,相比传统的基于关键词匹配的检索方法而言,在查全率和查准率等检索性能上都具有一定的优势。基于学术知识图谱的语义检索模型,不仅支持对学术资源的结构化组织,使得其内部知识更具有语义性,还能够为语义检索提供具有内在语义关联的领域知识数据,从而提高检索系统对用户检索语句的语义理解能力,并将检索数据集中与检索条件语义相关性较高的结果以结构化形式进行输出,为用户提供更符合其语义需求的学术资源。
本文的主要研究顺序如下:首先,在对现有的大规模学术知识图谱进行充分调研的基础上,针对大规模领域知识图谱构建门槛较高的问题,结合实际科研实验中对学术知识图谱的需求主要在于知识的组织结构而非图谱规模大小的情况,提出了一种在已开发完成的大规模知识图谱基础上,通过设定抽取规则获取其知识库子集数据进行知识图谱重构的方法,最终构建了实验型小规模学术知识图谱,并通过Neo4j完成了对知识图谱的存储;然后,构建了基于学术知识图谱的语义检索模型,其主要组成部分包括存储与索引模块、检索语句交互模块和语义分析模块,并对这些模块涉及的理论、技术和算法进行了研究分析,包括索引构建、自然语言分词处理与同义转换以及概念映射、语义扩展和语义推理等;最后,在借助Neo4j完成知识图谱存储的基础上,利用Lucene构建了实体索引,调用Cypher语句完成数据库查询,以及通过Python实现语义检索模型中相关算法功能,从而实现了基于学术知识图谱的语义检索模型的检索功能,并在实证评估环节中,通过设置多组检索词进行了测试,以查准率、查全率和F1值为检索性能评价指标对模型的检索性能进行了评估分析,并同传统的基于关键词匹配的检索方法进行了全面对比分析。
通过实证评估发现,将学术知识图谱应用于学术资源的语义检索,相比传统的基于关键词匹配的检索方法而言,在查全率和查准率等检索性能上都具有一定的优势。基于学术知识图谱的语义检索模型,不仅支持对学术资源的结构化组织,使得其内部知识更具有语义性,还能够为语义检索提供具有内在语义关联的领域知识数据,从而提高检索系统对用户检索语句的语义理解能力,并将检索数据集中与检索条件语义相关性较高的结果以结构化形式进行输出,为用户提供更符合其语义需求的学术资源。