面向学科知识问答的多源数据融合研究--以造血干细胞癌症治疗为例

来源 :中国科学院大学 | 被引量 : 0次 | 上传用户:sharufeifen
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在生命医学领域,以论文(Paper)、专利(Patent)、临床试验(Clinical Trial,CT)、疾病(Disease)和药物(Drug)等为核心的科技数据资源呈“井喷式”增长,规模庞大的数据资源促进了数据驱动的知识发现与技术突破,也对科研人员高效利用数据、发现深层次知识带来了新的挑战。学科知识问答综合运用自然语言处理、知识组织、信息检索及机器学习等技术对学科领域的各种“碎片化”的数据进行知识挖掘、知识关联与知识重新组织,并能以“知识”的形式全面、准确地回答用户问题,是一种典型的学科知识发现应用。多源异构数据融合是学科知识问答的关键技术与核心研究问题之一,也是当前生命医学领域学科知识服务与智能知识发现研究的重点与难点。而知识图谱(Knowledge Graph,KG)是一种对多类型、多来源数据进行多维度、细粒度数据融合的新型知识组织技术。其在知识组织上可实现数据资源内部知识单元的多层次、细粒度、富语义组织,在服务形式上可支持智能检索、知识问答和知识挖掘等知识发现应用,促进信息服务向知识服务的转变,已经成为科技数据融合的重要技术手段。
  因此,论文面向学科知识服务需求,针对学科知识问答中多源数据融合面临的核心问题,系统调研了基于知识图谱的学科多源数据融合理论、方法与关键技术,重点研究了生命医学领域知识实体对齐(Knowledge Entity Alignment)方法与技术,并以造血干细胞癌症治疗(Hematopoietic Stem Cell for Cancer Treatment,HSCCT)为例开展了实证研究,构建了一个融合多源数据的HSCCT知识图谱,介绍了HSCCT学科知识问答流程与查询优势。
  论文的主要工作为:①针对中多源数据融合的核心问题,提出了一套高效率的生命医学领域知识实体对齐方法体系。该方法基于统一医学语言系统(Unified Medical Language System,UMLS),综合运用原子映射(Atom Mapping)、术语映射(Term Mapping)、子术语映射(Sub-Term Mapping)和语义类型映射(Semantic Type Mapping)技术,可高效地实现领域知识实体“全面”、“准确”对齐,其效果显著优于基于字符相似度和基于语义相似度的知识实体对齐方法。②基于上述知识实体对齐方法,构建了一个融合论文、专利、疾病和基因等多源数据的HSCCT知识图谱。该知识图谱包括14类知识实体、39类语义关系,共计498,237个知识实体节点与2,743,269条关系数据。③基于HSCCT知识图谱与Neo4j图数据库平台,设计了HSCCT学科知识问答分类体系,介绍了基于该分类体系的问答流程,总结了学科知识问答的查询优势,这些优势从应用层面印证了实体对齐的效果。基于HSCCT知识图谱的学科知识问答可提供学科领域显性知识实体与语义关系查询以及基于知识推理的隐性知识问答等知识服务。与传统信息检索服务相比,其回答的知识更全面、更丰富、更精准,而且还可包括深层次的隐性知识。
  总之,基于学科知识问答对多源异构数据融合的具体需求,论文提出了一套高效率的生命医学领域知识实体对齐方法,并应用该方法构建了一个融合多源数据的HSCCT知识图谱,总结了基于HSCCT知识图谱的学科知识问答服务优势,论文所提出的知识实体对齐方法可以更有效地实现生命医学领域多源异构学科数据的细粒度、深层次融合与重用,其构建的HSCCT知识图谱可支持更全面、精准和智能的学科知识问答应用。
其他文献
世界已经从信息时代逐步进入到大数据时代,海量数据中很大一部分是用自然语言记录的文本数据。而电子公文作为文本数据类型的一种,它是政府机关、企事业单位等形成、具有法律效力和规范体式的数字形式的文件。历年累积的电子公文归档保存后一般按照内容进行人工主题标引、分类组织或者建立专题数据库以方便检索和开发利用。但人工标引主题方式存在劳动量大、速度慢、标引不一致等弊端,因此需要研究电子公文主题自动标引方法。  
学位
人类社会的进步和发展得益于技术的开发与广泛应用。技术和人文的相互融合共同推动了图书馆新的变革与转型,其中一个重要的趋势是向智慧图书馆方向发展。近年来,以人工智能技术等为代表的新兴技术蓬勃兴起,智慧城市、智慧社会、智慧社区和智慧校园等“智慧化”实践不断推进,用户信息需求仍在不断升级,这些环境的变化为图书馆的发展带来了契机,也带来了挑战。加快智慧图书馆建设,不断丰富服务内容、创新服务方式、提升服务水平
随着科学技术的不断进步,科技创新成果涌现,生产力迅猛发展,对于各行各业的影响日益加深,科学技术成为促进经济增长、推动产业革命的重要源泉,科技竞争力逐渐成为国家地位的保障。科技竞争力地位的不断提高对于情报学界的研究范式提出了新的要求,注重尽早发现、识别科技创新的前沿、热点,并评估其发展趋势,以支撑相关科技发展决策。  数据科学时代,科技情报分析与研究的问题往往更为综合,涉及要素更为多元,同时也更为细
学位
在技术创新领域,新兴技术的识别与预测已成为研究热点。无论对于国家、企业或是研究机构,坚持创新驱动发展,把握新兴技术这一技术创新的动力之源,率先抢占技术机会,准确掌控未来技术发展的方向,具有重要的意义。而目前新兴技术的识别研究多集中在发展态势已初具规模、对行业经济已产生一定影响的技术集群中,忽略了现阶段特征不明显、与大多数技术有较大偏离、但具有新兴发展潜力的技术领域。因此,挖掘有关数据中未规模化兴起
科技成果转化是促进科技与经济结合,推动我国新旧动能转换的重要手段。科研院所是科技创新的重要机构,是科技成果供给侧的重要组成部分。近年来,国家出台了一系列激发科研人员创新活力的政策,对于科技成果转化的重视程度不断加强。然而,我国科研院所的科技成果转化仍存在较多阻碍因素,转化效率亟待提高。其中,信息不对称、信息渠道不畅通以及提供服务的人才队伍综合能力欠缺是制约科技成果转化的重要原因。作为专业化信息服务
对于人类社会而言,人才始终是最宝贵的资源,是最重要的财富,是推动经济社会发展的原动力。纵观世界各国,人才始终是国家发展之根基,是科技创新之力量源泉,是决定国家竞争力的关键要素。科学地评价人才是科研事业健康发展的基本前提之一,具有重要的意义。而科学家是整个人才队伍的核心力量、是科技事业的中坚力量,是科技创新的根基,拥有高水平的、领军的科学家对于国家科技竞争力具有决定性的作用。  科学家的评价工作由来
学位
科研环境的转变为科技情报机构从文献传递到信息服务(情报1.0)、从信息服务到知识服务(情报2.0)、从知识服务到智能服务(情报3.0)带来了机遇和挑战。然而,当前我国的科技查新工作很大程度上仍依赖于人工操作,依靠查新员的主观判断很难对科技查新的质量进行控制。为了提高科技查新工作的质量,实现查新的精准检索,将信息技术与传统的查新相结合成为查新工作的创新实践,虽然目前已有关于自动化查新平台建设的探讨,
学位
创新发展是世界各经济体的战略发展要点。创新意味着范式的改变、劳动力的解放、生产效率的提高,进而实现社会经济、文化和技术的全面进步。从各国家地区的战略部署来看,突破性创新是部署的重点,其蕴含巨大的经济、科研和国家战略价值。突破性创新作为创新这一概念的下位类,具有非线性、创新性和影响力等多种特征。且特征量化难度大,因此识别和预测的难度较大。如果能对突破性创新进行识别和预测,可以先一步进行科研资金的优化
学位
随着移动通信技术的飞速发展和终端设备的不断升级,内容丰富、形式生动的短视频开始展现传播力优势。在科普领域,移动短视频表现出惊人的生命力,推动了科普的数字化升级。用户接受角度下科普短视频的使用影响因素值得探究。  在校大学生是短视频的重要用户群体,具备较好的短视频使用基础,同时科学知识需求强烈。本研究以在校大学生为研究对象,通过访谈探究其使用科普短视频的影响因素;在访谈的基础上,结合科普短视频的特点
伴随着新知识经济时代和“互联网+”的到来,公众的信息需求呈现出多元、动态、异质的走向,个体信息组织和机构往往受自身能力限制,无法提供完善的信息服务,也无法适应大环境的新变化和新要求。图书馆作为支撑区域知识信息发展的中心机构,也不可避免地要加强与其他行业机构的深度合作交流,放宽眼界,寻求新的合作对象与合作模式,不断探索与政府、企业、科研机构等不同对象的合作模式以占领信息服务高地。但是当前图书馆尤其是