基于深度学习的轻量级领域本体自动构建方法研究

来源 :中国科学院大学 | 被引量 : 0次 | 上传用户:a8058058
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着全球大数据技术的高速发展,知识变革的步伐和范围进一步加剧,知识载体的多渠道、多来源、多格式、非结构化等复杂异构现象已成为常态,已严重阻碍了领域知识在多科研主体间的共享和重用,亟需领域本体的支撑。轻量级领域本体作为一种基于领域概念和概念间语义关系来表示和描述特定领域知识结构体系的重要模型,已成为领域知识结构化组织、体系化集成、智能化挖掘、语义化分析计算的关键支撑,也是专题领域知识图谱构建与应用不可或缺的基础要素,对其自动构建方法的研究是一种刚需。
  目前国内外已经有一些成功构建和应用的本体,但主要为通用知识本体、顶层本体、或集中在生物医学、化学、地学等少数领域的上层学科本体等重量级或中量级领域本体,目的是为领域本体构建提供基础形式规范或支撑大学科综合层面的资源粗粒度整合,难以有效支持特定专题领域的细粒度知识组织任务。同时,国内外主流的领域本体构建方法体系主要以大量人工参与的手工或半自动模式为主,相关工具主要以提供图形界面方便人工编辑、规范构建流程、或辅助数据格式转换为主,缺乏真正自动化的构建方法和机制,不利于领域本体构建的可持续化发展。并且,领域本体构建的数据来源以相对单一固定的规则化、结构化数据源为主,缺乏对非结构化数据的研究利用,研究对象以领域本体分类框架构建和领域概念抽取为主,缺乏对领域概念上下位、同反义、相关等深层次语义关系的识别和获取研究。总的来说,当前领域本体的构建技术和方法,尤其是重量级领域本体的构建和应用路线,存在构建模式、技术、成本、更新演化方面的重大局限和应用制约,已成为制约专题领域知识智能化组织与挖掘应用的主要瓶颈,自动化的轻量级领域本体构建方法将有希望成为推动和解决这些问题的一条实用可行路径。
  深度学习是当前人工智能和机器学习领域的热点研究方向,已成为互联网科技行业占领行业制高点的决胜因素之一。对于自然语言处理的诸多任务而言,如机器翻译、命名实体识别、文本表示与推理等,深度学习已取得了巨大成效。尤其近年来,已有大量深度学习算法模型、工具框架等相继被开源提供,鼓励研究创新和应用突破。受此影响和驱动,基于深度学习进行自动化的轻量级领域本体构建方法的研究既是趋势导向,也是一种创新实践路径。一方面,深度学习不需要大量人工参与数据统计分析处理过程,具有强大的从海量非结构化数据中自动学习到数据隐含的高级语义特征的能力,从而能够实现多源异构学术资源的自动语义分析、标注处理与特征表示等,极大地解放了人力物力,提升领域本体构建的效率。另一方面,深度学习可以打破传统单一固定数据来源、内容结构的领域本体构建模式,能够通过对多源异构学术资源的自动语义关联分析和特征挖掘来实现深层次、细粒度、多模式、自动化的领域本体知识获取与表示,从而为轻量级领域本体自动构建提供创新的理论方法依据。
  针对上述问题和机遇,本文深入研究和探索了基于深度学习的轻量级领域本体自动构建方法,并将其和传统主流方法技术有机结合起来,最终构建和提出了一系列支持轻量级领域本体自动生成的深度学习流程框架与方法模型,并主要以资源环境领域为例进行了试验应用和对试验结果进行了深入分析和评价。
  主要研究内容如下:
  (1)设计了多源异构深度学习领域语料自动获取与预处理的通用方法流程。
  具体包括:提出了基于Web API的科学文献语料、基于Web Spider的网络开放语料等自动获取的核心方法和流程;基于领域基础知识词典和开源分词工具HanLP扩展训练出SP词法分析模型实现领域文本自动分词的核心方法和流程。
  (2)构建了基于BLSTM-CRF和自注意力机制的领域概念自动抽取的深度学习模型。
  具体包括:提出了领域特征词嵌入模型的训练与优化方法;基于IOB格式的术语标注语料和领域特征词嵌入模型构建输入层,基于BLSTM和自注意力机制构建隐藏层,基于CRF-Viterbi算法构建输入层,以构建和训练领域概念抽取模型的核心方法和流程。
  (3)构建了基于BERT和XLNet的轻量级领域本体分类关系自动识别的深度学习模型。
  具体包括:提出了领域多标签分类标注语料的自动获取与生成方法;多标签分类标注语料的特征表示和转换方法;轻量级领域本体分类关系自动识别模型的训练与优化方法。
  (4)构建了基于投影学习算法、改进CBOW和GloVe词嵌入的轻量级领域本体非分类关系自动识别的系列深度学习模型。
  具体包括:提出了基于扩展Hearst模式和投影学习相结合的轻量级领域本体上下位关系识别的核心技术路线和方法流程;基于领域词典和改进CBOW词嵌入相结合的轻量级领域本体同义关系识别的核心技术路线和方法流程;基于特征编码编辑距离和GloVe词嵌入相结合的轻量级领域本体同义关系识别的核心技术路线和方法流程。
  (5)设计了融合传统主流模式与当前新兴模式的轻量级领域本体自动存储表示和服务应用的实用方法策略。
  具体包括:提出了RDB和GDB模式相结合的轻量级领域本体自动存储表示方法;基于RESTful API的轻量级领域本体自动服务应用策略。
  在理论价值上,本文设计和构建了一系列可靠的、可复用、可扩展的支持轻量级领域本体自动化构建的核心方法和模型,丰富和拓展了领域本体构建相关的方法理论体系,为轻量级领域本体的自动化构建提供了创新的方法论支撑。在实践价值上,为轻量级领域本体的自动生成和快速有效投入服务应用提供了创新的实现路径和技术工具支撑,形成一种更加符合大数据环境下基于多源异构专题领域数据开展自动化、精准化知识服务应用需求的领域本体构建模式。
其他文献
随着计算机和互联网技术的高速发展和持续演进,社会各界智能化、知识化服务的需求愈发明显,从而产生了越来越多有关知识图谱建设与应用的研究。而在众多领域知识图谱的研究和构建中,机构知识图谱的研究建设与应用受到越来越多的关注。一方面,构建机构知识图谱将为科技史研究与科学文化传播服务提供重要支持;另一方面,机构知识图谱是大数据环境下科技情报研究的重要支撑工具。机构变迁事件知识是机构知识图谱的重要组成部分,描
基础研究领域领军人才,作为优秀的高层次科技人才群体,是国家战略性资源以及科技事业发展的关键因素。正确认识基础研究领域领军人才的特征,把握基础研究领域领军人才的培养和成长规律,关系到国家经济社会发展和核心竞争力的提高。作为基础研究和基础性应用研究活动的主要产出形式,科研论文是影响基础研究领域领军人才职称晋升、项目申请、行政任职等关键事件发展的重要因素。通过对比分析这些关键事件时间点的科研表现,描绘基
学位
长三角区域作为中国区域一体化程度最高的地区,不仅仅具有较强的经济活力,同时也面临着严重的环境问题。长三角区域当前正处于提升竞争力、创新驱动发展的关键阶段,针对长三角区域经济发展面临的严峻的环境问题,为促进长三角区域的经济可持续性健康发展,长三角相关政府出台了诸多的环境政策。因此通过研究长三角区域的环境政策,对长三角区域的环境政策优化调整提供合理化的政策建议,能够有效地支撑中央和国家重大的战略部署,
现如今庞大的科技文献资源数量给科研工作带来了一定困难,当前,研究人员大多人工进行筛选、阅读文献、整理文献核心内容,耗时耗力;且现存大多数文献尚未实现规范的结构化摘要,若需了解其核心研究内容需阅读相当篇幅进行理解总结。针对以上现状,如何快速高效地理解论文并对知识进行组织尤为重要,因此,对海量科技文献资源进行分析、挖掘,并自动化地组织其核心研究内容,对科研工作有重要的应用价值。  一篇科技论文的核心研
学位
网络技术与全球开放获取运动的蓬勃发展重新塑造了学术出版和学术交流模式,科研人员迫切需要提升学术出版素养以应对学术出版环境的快速变化和与日俱增的出版压力。同时,信息环境的转变和科研范式的演变为信息素养教育带来了新的发展机遇,推动信息素养教育逐步向强调科研与创新素养能力培养的泛信息素养教育体系发展。学术出版素养作为泛信息素养教育的重要研究方向之一,为高校图书馆带来新的发展机遇。目前,已经有部分国外高校
随着国家提出深化改革培育世界一流科技期刊,重点实施中国科技期刊卓越行动计划,期刊的发展受到前所未有的关注和支持,中国学术期刊正迎来良好的发展契机。学术期刊是重要的学术交流媒介,学术期刊的发展与本学科的发展密切相关,优势学科领域的期刊发展相对更具优势,整体效益更高。在国际一流科技期刊建设中,有必要了解中国优势学科期刊的发展情况、国际学术地位及其与学科的匹配度;从国际影响力发展态势的角度把握中国优势学
学位
习近平总书记在十九大报告中提出乡村振兴战略,强调要发挥农民主体作用,坚持农业农村优先发展。人是生产力中最具有决定性的因素,因此,推动乡村振兴战略,最关键的是调动农民的主观能动性。信息化时代,信息素养已经成为劳动者必备的技能。新型职业农民信息素养培育,对于我国发展现代农业、实现乡村振兴战略至关重要。本研究试图构建一套新型职业农民信息素养测度体系,并通过实证研究,探讨培育提升新型职业农民信息素养的策略
当前全球科技创新活动空前活跃,新的科技与产业变革正在影响着世界经济的发展局势。科技创新是国家强盛、民族进步的基础,是提高生产力和发展经济的第一要素,是促进现代化建设、提高国际竞争力的关键。习近平总书记在“科技三会”指出,科技创新,国家赖之以强,企业赖之以赢,人民生活赖之以好。科技创新不仅影响着国家的前途命运,也是企业发展进步和保持竞争力的不竭动力,还很大程度上影响着人们的生活生产方式。技术转移是科
学位
With the development of mobile intemet,Web services tend to be fragmented and heterogeneous.The demands of users are expressed in multi-dimensionalities.Service recommendation is an efFective way to h
学位
随着语义网和大数据技术的快速发展,数字化数据呈指数增长,信息内容日趋复杂、质量参差不齐,造成了“信息过载”、“知识饥渴”等问题。叙词表致力于组织和管理知识信息,不仅是图书情报的基础工具,还广泛应用于知识抽取、本体学习等领域。在大数据背景及语义网环境下,更新维护及时的叙词表对于把握不同学科领域发展和应用具有重要作用。  当前,叙词表的编制和维护存在两个问题:一是,重编制、轻应用、疏修订;二是,以手工