论文部分内容阅读
在生命医学领域,以论文(Paper)、专利(Patent)、临床试验(Clinical Trial,CT)、疾病(Disease)和药物(Drug)等为核心的科技数据资源呈“井喷式”增长,规模庞大的数据资源促进了数据驱动的知识发现与技术突破,也对科研人员高效利用数据、发现深层次知识带来了新的挑战。学科知识问答综合运用自然语言处理、知识组织、信息检索及机器学习等技术对学科领域的各种“碎片化”的数据进行知识挖掘、知识关联与知识重新组织,并能以“知识”的形式全面、准确地回答用户问题,是一种典型的学科知识发现应用。多源异构数据融合是学科知识问答的关键技术与核心研究问题之一,也是当前生命医学领域学科知识服务与智能知识发现研究的重点与难点。而知识图谱(Knowledge Graph,KG)是一种对多类型、多来源数据进行多维度、细粒度数据融合的新型知识组织技术。其在知识组织上可实现数据资源内部知识单元的多层次、细粒度、富语义组织,在服务形式上可支持智能检索、知识问答和知识挖掘等知识发现应用,促进信息服务向知识服务的转变,已经成为科技数据融合的重要技术手段。
因此,论文面向学科知识服务需求,针对学科知识问答中多源数据融合面临的核心问题,系统调研了基于知识图谱的学科多源数据融合理论、方法与关键技术,重点研究了生命医学领域知识实体对齐(Knowledge Entity Alignment)方法与技术,并以造血干细胞癌症治疗(Hematopoietic Stem Cell for Cancer Treatment,HSCCT)为例开展了实证研究,构建了一个融合多源数据的HSCCT知识图谱,介绍了HSCCT学科知识问答流程与查询优势。
论文的主要工作为:①针对中多源数据融合的核心问题,提出了一套高效率的生命医学领域知识实体对齐方法体系。该方法基于统一医学语言系统(Unified Medical Language System,UMLS),综合运用原子映射(Atom Mapping)、术语映射(Term Mapping)、子术语映射(Sub-Term Mapping)和语义类型映射(Semantic Type Mapping)技术,可高效地实现领域知识实体“全面”、“准确”对齐,其效果显著优于基于字符相似度和基于语义相似度的知识实体对齐方法。②基于上述知识实体对齐方法,构建了一个融合论文、专利、疾病和基因等多源数据的HSCCT知识图谱。该知识图谱包括14类知识实体、39类语义关系,共计498,237个知识实体节点与2,743,269条关系数据。③基于HSCCT知识图谱与Neo4j图数据库平台,设计了HSCCT学科知识问答分类体系,介绍了基于该分类体系的问答流程,总结了学科知识问答的查询优势,这些优势从应用层面印证了实体对齐的效果。基于HSCCT知识图谱的学科知识问答可提供学科领域显性知识实体与语义关系查询以及基于知识推理的隐性知识问答等知识服务。与传统信息检索服务相比,其回答的知识更全面、更丰富、更精准,而且还可包括深层次的隐性知识。
总之,基于学科知识问答对多源异构数据融合的具体需求,论文提出了一套高效率的生命医学领域知识实体对齐方法,并应用该方法构建了一个融合多源数据的HSCCT知识图谱,总结了基于HSCCT知识图谱的学科知识问答服务优势,论文所提出的知识实体对齐方法可以更有效地实现生命医学领域多源异构学科数据的细粒度、深层次融合与重用,其构建的HSCCT知识图谱可支持更全面、精准和智能的学科知识问答应用。
因此,论文面向学科知识服务需求,针对学科知识问答中多源数据融合面临的核心问题,系统调研了基于知识图谱的学科多源数据融合理论、方法与关键技术,重点研究了生命医学领域知识实体对齐(Knowledge Entity Alignment)方法与技术,并以造血干细胞癌症治疗(Hematopoietic Stem Cell for Cancer Treatment,HSCCT)为例开展了实证研究,构建了一个融合多源数据的HSCCT知识图谱,介绍了HSCCT学科知识问答流程与查询优势。
论文的主要工作为:①针对中多源数据融合的核心问题,提出了一套高效率的生命医学领域知识实体对齐方法体系。该方法基于统一医学语言系统(Unified Medical Language System,UMLS),综合运用原子映射(Atom Mapping)、术语映射(Term Mapping)、子术语映射(Sub-Term Mapping)和语义类型映射(Semantic Type Mapping)技术,可高效地实现领域知识实体“全面”、“准确”对齐,其效果显著优于基于字符相似度和基于语义相似度的知识实体对齐方法。②基于上述知识实体对齐方法,构建了一个融合论文、专利、疾病和基因等多源数据的HSCCT知识图谱。该知识图谱包括14类知识实体、39类语义关系,共计498,237个知识实体节点与2,743,269条关系数据。③基于HSCCT知识图谱与Neo4j图数据库平台,设计了HSCCT学科知识问答分类体系,介绍了基于该分类体系的问答流程,总结了学科知识问答的查询优势,这些优势从应用层面印证了实体对齐的效果。基于HSCCT知识图谱的学科知识问答可提供学科领域显性知识实体与语义关系查询以及基于知识推理的隐性知识问答等知识服务。与传统信息检索服务相比,其回答的知识更全面、更丰富、更精准,而且还可包括深层次的隐性知识。
总之,基于学科知识问答对多源异构数据融合的具体需求,论文提出了一套高效率的生命医学领域知识实体对齐方法,并应用该方法构建了一个融合多源数据的HSCCT知识图谱,总结了基于HSCCT知识图谱的学科知识问答服务优势,论文所提出的知识实体对齐方法可以更有效地实现生命医学领域多源异构学科数据的细粒度、深层次融合与重用,其构建的HSCCT知识图谱可支持更全面、精准和智能的学科知识问答应用。