论文部分内容阅读
随着全球大数据技术的高速发展,知识变革的步伐和范围进一步加剧,知识载体的多渠道、多来源、多格式、非结构化等复杂异构现象已成为常态,已严重阻碍了领域知识在多科研主体间的共享和重用,亟需领域本体的支撑。轻量级领域本体作为一种基于领域概念和概念间语义关系来表示和描述特定领域知识结构体系的重要模型,已成为领域知识结构化组织、体系化集成、智能化挖掘、语义化分析计算的关键支撑,也是专题领域知识图谱构建与应用不可或缺的基础要素,对其自动构建方法的研究是一种刚需。
目前国内外已经有一些成功构建和应用的本体,但主要为通用知识本体、顶层本体、或集中在生物医学、化学、地学等少数领域的上层学科本体等重量级或中量级领域本体,目的是为领域本体构建提供基础形式规范或支撑大学科综合层面的资源粗粒度整合,难以有效支持特定专题领域的细粒度知识组织任务。同时,国内外主流的领域本体构建方法体系主要以大量人工参与的手工或半自动模式为主,相关工具主要以提供图形界面方便人工编辑、规范构建流程、或辅助数据格式转换为主,缺乏真正自动化的构建方法和机制,不利于领域本体构建的可持续化发展。并且,领域本体构建的数据来源以相对单一固定的规则化、结构化数据源为主,缺乏对非结构化数据的研究利用,研究对象以领域本体分类框架构建和领域概念抽取为主,缺乏对领域概念上下位、同反义、相关等深层次语义关系的识别和获取研究。总的来说,当前领域本体的构建技术和方法,尤其是重量级领域本体的构建和应用路线,存在构建模式、技术、成本、更新演化方面的重大局限和应用制约,已成为制约专题领域知识智能化组织与挖掘应用的主要瓶颈,自动化的轻量级领域本体构建方法将有希望成为推动和解决这些问题的一条实用可行路径。
深度学习是当前人工智能和机器学习领域的热点研究方向,已成为互联网科技行业占领行业制高点的决胜因素之一。对于自然语言处理的诸多任务而言,如机器翻译、命名实体识别、文本表示与推理等,深度学习已取得了巨大成效。尤其近年来,已有大量深度学习算法模型、工具框架等相继被开源提供,鼓励研究创新和应用突破。受此影响和驱动,基于深度学习进行自动化的轻量级领域本体构建方法的研究既是趋势导向,也是一种创新实践路径。一方面,深度学习不需要大量人工参与数据统计分析处理过程,具有强大的从海量非结构化数据中自动学习到数据隐含的高级语义特征的能力,从而能够实现多源异构学术资源的自动语义分析、标注处理与特征表示等,极大地解放了人力物力,提升领域本体构建的效率。另一方面,深度学习可以打破传统单一固定数据来源、内容结构的领域本体构建模式,能够通过对多源异构学术资源的自动语义关联分析和特征挖掘来实现深层次、细粒度、多模式、自动化的领域本体知识获取与表示,从而为轻量级领域本体自动构建提供创新的理论方法依据。
针对上述问题和机遇,本文深入研究和探索了基于深度学习的轻量级领域本体自动构建方法,并将其和传统主流方法技术有机结合起来,最终构建和提出了一系列支持轻量级领域本体自动生成的深度学习流程框架与方法模型,并主要以资源环境领域为例进行了试验应用和对试验结果进行了深入分析和评价。
主要研究内容如下:
(1)设计了多源异构深度学习领域语料自动获取与预处理的通用方法流程。
具体包括:提出了基于Web API的科学文献语料、基于Web Spider的网络开放语料等自动获取的核心方法和流程;基于领域基础知识词典和开源分词工具HanLP扩展训练出SP词法分析模型实现领域文本自动分词的核心方法和流程。
(2)构建了基于BLSTM-CRF和自注意力机制的领域概念自动抽取的深度学习模型。
具体包括:提出了领域特征词嵌入模型的训练与优化方法;基于IOB格式的术语标注语料和领域特征词嵌入模型构建输入层,基于BLSTM和自注意力机制构建隐藏层,基于CRF-Viterbi算法构建输入层,以构建和训练领域概念抽取模型的核心方法和流程。
(3)构建了基于BERT和XLNet的轻量级领域本体分类关系自动识别的深度学习模型。
具体包括:提出了领域多标签分类标注语料的自动获取与生成方法;多标签分类标注语料的特征表示和转换方法;轻量级领域本体分类关系自动识别模型的训练与优化方法。
(4)构建了基于投影学习算法、改进CBOW和GloVe词嵌入的轻量级领域本体非分类关系自动识别的系列深度学习模型。
具体包括:提出了基于扩展Hearst模式和投影学习相结合的轻量级领域本体上下位关系识别的核心技术路线和方法流程;基于领域词典和改进CBOW词嵌入相结合的轻量级领域本体同义关系识别的核心技术路线和方法流程;基于特征编码编辑距离和GloVe词嵌入相结合的轻量级领域本体同义关系识别的核心技术路线和方法流程。
(5)设计了融合传统主流模式与当前新兴模式的轻量级领域本体自动存储表示和服务应用的实用方法策略。
具体包括:提出了RDB和GDB模式相结合的轻量级领域本体自动存储表示方法;基于RESTful API的轻量级领域本体自动服务应用策略。
在理论价值上,本文设计和构建了一系列可靠的、可复用、可扩展的支持轻量级领域本体自动化构建的核心方法和模型,丰富和拓展了领域本体构建相关的方法理论体系,为轻量级领域本体的自动化构建提供了创新的方法论支撑。在实践价值上,为轻量级领域本体的自动生成和快速有效投入服务应用提供了创新的实现路径和技术工具支撑,形成一种更加符合大数据环境下基于多源异构专题领域数据开展自动化、精准化知识服务应用需求的领域本体构建模式。
目前国内外已经有一些成功构建和应用的本体,但主要为通用知识本体、顶层本体、或集中在生物医学、化学、地学等少数领域的上层学科本体等重量级或中量级领域本体,目的是为领域本体构建提供基础形式规范或支撑大学科综合层面的资源粗粒度整合,难以有效支持特定专题领域的细粒度知识组织任务。同时,国内外主流的领域本体构建方法体系主要以大量人工参与的手工或半自动模式为主,相关工具主要以提供图形界面方便人工编辑、规范构建流程、或辅助数据格式转换为主,缺乏真正自动化的构建方法和机制,不利于领域本体构建的可持续化发展。并且,领域本体构建的数据来源以相对单一固定的规则化、结构化数据源为主,缺乏对非结构化数据的研究利用,研究对象以领域本体分类框架构建和领域概念抽取为主,缺乏对领域概念上下位、同反义、相关等深层次语义关系的识别和获取研究。总的来说,当前领域本体的构建技术和方法,尤其是重量级领域本体的构建和应用路线,存在构建模式、技术、成本、更新演化方面的重大局限和应用制约,已成为制约专题领域知识智能化组织与挖掘应用的主要瓶颈,自动化的轻量级领域本体构建方法将有希望成为推动和解决这些问题的一条实用可行路径。
深度学习是当前人工智能和机器学习领域的热点研究方向,已成为互联网科技行业占领行业制高点的决胜因素之一。对于自然语言处理的诸多任务而言,如机器翻译、命名实体识别、文本表示与推理等,深度学习已取得了巨大成效。尤其近年来,已有大量深度学习算法模型、工具框架等相继被开源提供,鼓励研究创新和应用突破。受此影响和驱动,基于深度学习进行自动化的轻量级领域本体构建方法的研究既是趋势导向,也是一种创新实践路径。一方面,深度学习不需要大量人工参与数据统计分析处理过程,具有强大的从海量非结构化数据中自动学习到数据隐含的高级语义特征的能力,从而能够实现多源异构学术资源的自动语义分析、标注处理与特征表示等,极大地解放了人力物力,提升领域本体构建的效率。另一方面,深度学习可以打破传统单一固定数据来源、内容结构的领域本体构建模式,能够通过对多源异构学术资源的自动语义关联分析和特征挖掘来实现深层次、细粒度、多模式、自动化的领域本体知识获取与表示,从而为轻量级领域本体自动构建提供创新的理论方法依据。
针对上述问题和机遇,本文深入研究和探索了基于深度学习的轻量级领域本体自动构建方法,并将其和传统主流方法技术有机结合起来,最终构建和提出了一系列支持轻量级领域本体自动生成的深度学习流程框架与方法模型,并主要以资源环境领域为例进行了试验应用和对试验结果进行了深入分析和评价。
主要研究内容如下:
(1)设计了多源异构深度学习领域语料自动获取与预处理的通用方法流程。
具体包括:提出了基于Web API的科学文献语料、基于Web Spider的网络开放语料等自动获取的核心方法和流程;基于领域基础知识词典和开源分词工具HanLP扩展训练出SP词法分析模型实现领域文本自动分词的核心方法和流程。
(2)构建了基于BLSTM-CRF和自注意力机制的领域概念自动抽取的深度学习模型。
具体包括:提出了领域特征词嵌入模型的训练与优化方法;基于IOB格式的术语标注语料和领域特征词嵌入模型构建输入层,基于BLSTM和自注意力机制构建隐藏层,基于CRF-Viterbi算法构建输入层,以构建和训练领域概念抽取模型的核心方法和流程。
(3)构建了基于BERT和XLNet的轻量级领域本体分类关系自动识别的深度学习模型。
具体包括:提出了领域多标签分类标注语料的自动获取与生成方法;多标签分类标注语料的特征表示和转换方法;轻量级领域本体分类关系自动识别模型的训练与优化方法。
(4)构建了基于投影学习算法、改进CBOW和GloVe词嵌入的轻量级领域本体非分类关系自动识别的系列深度学习模型。
具体包括:提出了基于扩展Hearst模式和投影学习相结合的轻量级领域本体上下位关系识别的核心技术路线和方法流程;基于领域词典和改进CBOW词嵌入相结合的轻量级领域本体同义关系识别的核心技术路线和方法流程;基于特征编码编辑距离和GloVe词嵌入相结合的轻量级领域本体同义关系识别的核心技术路线和方法流程。
(5)设计了融合传统主流模式与当前新兴模式的轻量级领域本体自动存储表示和服务应用的实用方法策略。
具体包括:提出了RDB和GDB模式相结合的轻量级领域本体自动存储表示方法;基于RESTful API的轻量级领域本体自动服务应用策略。
在理论价值上,本文设计和构建了一系列可靠的、可复用、可扩展的支持轻量级领域本体自动化构建的核心方法和模型,丰富和拓展了领域本体构建相关的方法理论体系,为轻量级领域本体的自动化构建提供了创新的方法论支撑。在实践价值上,为轻量级领域本体的自动生成和快速有效投入服务应用提供了创新的实现路径和技术工具支撑,形成一种更加符合大数据环境下基于多源异构专题领域数据开展自动化、精准化知识服务应用需求的领域本体构建模式。