基于学术知识图谱的语义检索研究

来源 :华中师范大学 | 被引量 : 0次 | 上传用户:liongliong555
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在大数据飞速发展的当下,日益庞大的信息资源使得各个领域都开始了量化的进程。与此同时,随着知识爆炸式增长与传播,学术信息资源也以前所未有的速度在急速膨胀着,并诞生了许多优秀的学术资源数据库,学术科研又迸发了新的生命力。然而,随着学术资源的获取途径逐渐增多,获取成本逐渐降低,科研人员对学术资源的需求也逐渐由对资源数量与知识存储载体的获取转向为对资源内含知识的获取,这是一个从资源广度到资源深度的需求转变过程,具体表现在其对学术资源的检索需求不再局限于文本资源层次,而是细化到研究方法、研究机构、研究结果和研究数据等更具体的资源层次。但常用的学术资源数据库所使用的检索方法,仍是以基于关键词匹配和基于文本内容匹配为主,并不能充分表达语义信息,难以满足科研用户对学术资源的检索需求。因此,本文研究了基于学术知识图谱的语义检索,借助知识图谱强大的语义关系网络,构建基于学术知识图谱的语义检索模型,实现对学术资源的语义检索,在探究学术知识图谱对学术资源检索系统的检索性能进行提升的同时,使其对科研用户检索语句的理解,能够从关键词层面的匹配提升到语义层面的匹配,为科研用户提供更具有语义关联的学术资源,从而改善用户的检索体验和检索效果。
  本文的主要研究顺序如下:首先,在对现有的大规模学术知识图谱进行充分调研的基础上,针对大规模领域知识图谱构建门槛较高的问题,结合实际科研实验中对学术知识图谱的需求主要在于知识的组织结构而非图谱规模大小的情况,提出了一种在已开发完成的大规模知识图谱基础上,通过设定抽取规则获取其知识库子集数据进行知识图谱重构的方法,最终构建了实验型小规模学术知识图谱,并通过Neo4j完成了对知识图谱的存储;然后,构建了基于学术知识图谱的语义检索模型,其主要组成部分包括存储与索引模块、检索语句交互模块和语义分析模块,并对这些模块涉及的理论、技术和算法进行了研究分析,包括索引构建、自然语言分词处理与同义转换以及概念映射、语义扩展和语义推理等;最后,在借助Neo4j完成知识图谱存储的基础上,利用Lucene构建了实体索引,调用Cypher语句完成数据库查询,以及通过Python实现语义检索模型中相关算法功能,从而实现了基于学术知识图谱的语义检索模型的检索功能,并在实证评估环节中,通过设置多组检索词进行了测试,以查准率、查全率和F1值为检索性能评价指标对模型的检索性能进行了评估分析,并同传统的基于关键词匹配的检索方法进行了全面对比分析。
  通过实证评估发现,将学术知识图谱应用于学术资源的语义检索,相比传统的基于关键词匹配的检索方法而言,在查全率和查准率等检索性能上都具有一定的优势。基于学术知识图谱的语义检索模型,不仅支持对学术资源的结构化组织,使得其内部知识更具有语义性,还能够为语义检索提供具有内在语义关联的领域知识数据,从而提高检索系统对用户检索语句的语义理解能力,并将检索数据集中与检索条件语义相关性较高的结果以结构化形式进行输出,为用户提供更符合其语义需求的学术资源。
其他文献
科学数据是国家科技创新发展和经济社会发展的重要基础性战略资源,是信息时代传播速度最快、影响面最宽,开发利用潜力最大的科技资源,而现有的科学数据管理与欧美国家比还不够成熟,差距较大,为了更好的做好科学数据资源的组织与管理工作,促进科学数据共享,本文构建了基于中间件技术的科学数据资源的组织与管理框架,并用已有的地球科学数据做测试,实现了异构科学数据资源的统一检索。本文以科学数据理论、元数据理论为基础,
随着“双一流”高校评估工作的展开和推进,科学计量学在科研评价中的作用再一次展现。在科学计量学发展的这些年,不断深入促进研究内容和研究方法等的创新,研究主题也在动态变化。跟踪国际科学计量学研究主题,识别理清学科发展的演化脉络对于学者了解科学计量学国际研究进展动态,可有力支撑学科知识创新,并为科技创新用户提供前瞻性知识服务,对于促进科学知识有效吸收和转化,以及推动科学计量学的发展具有重要意义。  本文
公共图书馆生态是我国信息生态文明建设的重要组成部分,是文化生态产业发展的基石。知识经济的发展、信息环境的更迭对公共图书馆的服务提出了新的要求和内涵。信息生态理论的科学性、和谐性以及其与信息服务的契合性可以支撑公共图书馆实行创新战略,使其适应当前信息环境,明晰信息生态定位重叠,再定位信息功能、时空、资源生态位宽度,最终提高公共图书馆信息服务的生态竞争力。  因此,本文在总结全国公共图书馆服务现状的基
互联网时代的到来深刻地改变着人们的生活方式,随着各种智能移动终端设备的普及,移动社交网络成为人们随时随地分享个人观点、生活方式以及开展社交活动的重要媒介。然而,近年来用户隐私泄露的事件层出不穷,泄露方式也更加隐蔽和多样化,给用户的精神健康和个人财产安全带来了极大威胁。  本论文旨在研究移动社交网络用户隐私保护,从政府、行业和个人三个层面,运用文献研究法、比较分析法和问卷调查法,对当前我国用户隐私保
随着人们健康意识的增强,对健康信息的需求也日益提升。用户需要获取更多的健康信息。健康网站、健康社交媒体等出现丰富了用户的健康信息源选择。但是也给用户选择合适的健康信息源提出了更高的要求。现有研究更多的是研究用户性别、年龄、职业等人口特征以及信息内容的权威性、可读性等指标对用户信息源选择的影响程度,但很少考虑健康信息素养对用户选择的影响。《“健康中国2030”规划纲要》中将提升全民健康素养作为重要目
欧美等发达国家已经率先开展图书馆、档案馆、博物馆馆际合作实践。我国也随着全国文化信息资源共享工程的开展,迎来图书馆、档案馆、博物馆等跨机构的馆际合作。迈入新时代,红色文化资源受到党中央前所未有的重视,被提升到新的高度。作为我国的特色资源,红色文化资源既与其他资源存在共性,也有其特性。红色文化资源的信息特征带来信息组织方式的变化,也为图档博在红色文化资源共同建设过程中的模式、策略提出了挑战。故本文将
学位
社会化问答平台作为web2.0时代的产物,以其丰富、个性化的问答资源,已成为互联网用户获取信息的重要方式。大量的用户在社会化问答平台中进行提问和回答,逐渐形成了庞大的、有价值的知识库,其中以事件形式提出的复杂类问题能够吸引更多用户参与讨论。依据内容特征,社会化问答平台主要采用“主题-问题-答案”、“话题(事件)-问题-答案”这两种模式对平台内容进行组织,但是缺乏对事件间的关联组织。然而人类的命题记
2019年末,武汉爆发新型冠状病毒,与此同时网络上也开始传播大量与之相关的信息。这些信息包含与病毒相关知识性信息、媒体报道、网民情绪、观点、看法表达等多方面内容,随着这些信息热度提高,参与讨论的人数增加,关于该事件的网络舆情发展方向逐渐变得不是很明确。更有甚者,其中夹杂出现大量危害社会和谐、影响国家形象、影响政府公信力的信息。如何从数量巨大增长快速的网络信息中,尽早识别突发事件,对于舆论引导、民意
学位
随着网络大数据时代的到来,信息的获取成本降低、获取途径增加,但知识获取效率降低,因为受到信息超载问题的消极影响,通常在完善用户认知框架的过程中会出现负担加重的情况,用户较以往相比更需要经过提炼才能获得满足其需求的知识。知识融合是知识工程中的研究重点,同时也是情报学领域的研究热点,知识融合对知识单元进行分析、重组,其目的在于消除不完整知识所带来的冗余与不确定性。TRIZ理论在经过长时间的发展与完善后
学位
利用网络搜寻健康信息逐渐成为人们应对健康威胁的一种新方式。一方面,随着网络技术的快速发展,如今几乎人人都能随时随地接入网络,多种多样的网络健康信息扑面而来;另一方面,人们的健康意识增强,对健康信息的需求更加迫切。然而,人们的网络健康信息搜寻现状仍不理想,因此,厘清哪些因素影响着个体的网络健康信息搜寻意愿显得尤为必要。  本文基于保护动机理论视角,以保护动机理论中的威胁评估构面和应对评估构面为框架,