论文部分内容阅读
文本数据的爆炸式增长,使得人们在获取需要的信息时常常会被海量信息淹没,降低了获取信息的效率。生态治理技术领域情报分析在面对不断增长的文献数据时,也面临着从文本中获取重要信息和特定内容的挑战。在已发表的生态治理技术领域文献中,存在大量的生态治理事件无法高效地获取,使得研究人员在进行研究时无法便利地得到相关事件数据的支持,降低了研究效率。有研究者将命名实体识别技术应用于生态治理技术领域,通过信息抽取技术将时间实体、技术实体和地点实体自动抽取出来。但是抽取出来的实体之间是相互独立的个体,无法获取实体之间的联系。因此本文提出使用事件抽取技术进行生态治理事件抽取的研究,以期获取实体间的关系,从而提高研究人员获取信息的效率,为领域知识图谱和领域智能信息检索的构建打下基础。
随着算法的成熟和计算能力的提升,深度学习逐渐成为自然语言处理领域内的主流方法,事件抽取技术也从早期的基于模式匹配的方法和基于机器学习的方法,向基于深度学习的方法转变。BERT语言模型通过获取更加丰富的上下文语义信息,逐渐取代了Word2Vec的地位。目前主流的事件抽取模型将实体信息作为已知辅助事件的抽取,但是在生态治理事件实际抽取应用中,需要从大量无标记文本中实现事件抽取,因此本文提出了一种基于BERT语言模型的端到端事件联合抽取模型DMLSTM,主要包含以下内容:
(1)构建生态治理事件数据集。通过对通用领域的事件数据集进行调研,以及对生态治理技术领域文献的阅读和分析,对生态治理事件及其包含的事件类型、实体类型和元素角色类型进行了梳理和定义。其中事件类型包括:提出治理方案,实施生态治理和生态治理效果;实体类型包括:地区、林草资源、地形地貌类型、时间、治理技术和方法、治理目的和治理效果;元素角色包括:治理地区、林草资源、地形地貌类型、治理开始时间、治理结束时间、治理持续时间、治理技术和方法、治理目的和治理效果。基于对生态治理事件的实体、事件类型和元素角色的定义,和生态治理事件文本特点的分析归纳,对文本进行手工标注。
(2)将BERT预训练语言模型引入事件抽取任务中。在自然语言处理的各项任务中,如何使计算机能更加准确的读取文本语义实现自然语言理解一直是研究者们不断探索的方向之一。BERT预训练语言模型使用双向Transformer结构在大规模无标记文本中进行训练,相对于传统的Word2Vec等词嵌入工具获取了文本中更深层次的语义信息,在多项自然语言处理任务中取得了最好的效果。本文将BERT模型首次应用于事件抽取任务,并基于资源环境领域文本数据训练得到面向领域的RoBERTa-eco模型,通过更加丰富的上下文语义信息以提高生态治理事件的抽取效果。
(3)提出端到端事件联合抽取模型DMLSTM。基于生态治理事件抽取的应用需求,本文提出了一种端到端的事件抽取模型DMLSTM。模型的计算流程如下:①将文本输入BERT模型,获取每个字符的初始向量;②使用BiLSTM神经网络对上下文信息进行学习,获取文本的字符级特征;③使用实体识别模块,对文本中的实体进行识别;④使用事件识别模块,对文本中的触发词进行识别,并对事件类别进行判断;⑤基于识别出的实体和事件类型,以及Dynamic Multi-Pooling技术获取的句子级特征,对事件中的元素及其元素角色进行判断。⑥将识别出的事件数据进行结构化表示和存储。通过以上6个步骤,实现了实体识别、事件识别和元素角色抽取的联合训练,达到端到端事件联合抽取的目的。
(4)使用生态治理数据集对模型的性能进行验证。通过四个基于不同BERT模型的DMLSTM模型的实验表明,不同预训练语言模型对事件抽取的性能影响较大,在进行模型和研究框架的设计前需要选择合适的高性能预训练语言模型。本文提出的DMLSTM模型通过得到文本的句子级特征,在实体识别模块、事件识别模块和元素角色抽取模块分别取得了F1值0.623、0.535和0.297,与传统的BiLSTM模型相比有较大的提升。
通过基于BERT模型的端到端事件联合抽取模型DMLSTM,实现了从无标注的文本中自动抽取出生态治理事件,以期提高资源环境领域科研人员的知识获取效率。未来还将进行深入研究,进一步推动领域智能检索系统构建,支持领域知识图谱的建设,促进资源环境情报分析和服务的发展。
随着算法的成熟和计算能力的提升,深度学习逐渐成为自然语言处理领域内的主流方法,事件抽取技术也从早期的基于模式匹配的方法和基于机器学习的方法,向基于深度学习的方法转变。BERT语言模型通过获取更加丰富的上下文语义信息,逐渐取代了Word2Vec的地位。目前主流的事件抽取模型将实体信息作为已知辅助事件的抽取,但是在生态治理事件实际抽取应用中,需要从大量无标记文本中实现事件抽取,因此本文提出了一种基于BERT语言模型的端到端事件联合抽取模型DMLSTM,主要包含以下内容:
(1)构建生态治理事件数据集。通过对通用领域的事件数据集进行调研,以及对生态治理技术领域文献的阅读和分析,对生态治理事件及其包含的事件类型、实体类型和元素角色类型进行了梳理和定义。其中事件类型包括:提出治理方案,实施生态治理和生态治理效果;实体类型包括:地区、林草资源、地形地貌类型、时间、治理技术和方法、治理目的和治理效果;元素角色包括:治理地区、林草资源、地形地貌类型、治理开始时间、治理结束时间、治理持续时间、治理技术和方法、治理目的和治理效果。基于对生态治理事件的实体、事件类型和元素角色的定义,和生态治理事件文本特点的分析归纳,对文本进行手工标注。
(2)将BERT预训练语言模型引入事件抽取任务中。在自然语言处理的各项任务中,如何使计算机能更加准确的读取文本语义实现自然语言理解一直是研究者们不断探索的方向之一。BERT预训练语言模型使用双向Transformer结构在大规模无标记文本中进行训练,相对于传统的Word2Vec等词嵌入工具获取了文本中更深层次的语义信息,在多项自然语言处理任务中取得了最好的效果。本文将BERT模型首次应用于事件抽取任务,并基于资源环境领域文本数据训练得到面向领域的RoBERTa-eco模型,通过更加丰富的上下文语义信息以提高生态治理事件的抽取效果。
(3)提出端到端事件联合抽取模型DMLSTM。基于生态治理事件抽取的应用需求,本文提出了一种端到端的事件抽取模型DMLSTM。模型的计算流程如下:①将文本输入BERT模型,获取每个字符的初始向量;②使用BiLSTM神经网络对上下文信息进行学习,获取文本的字符级特征;③使用实体识别模块,对文本中的实体进行识别;④使用事件识别模块,对文本中的触发词进行识别,并对事件类别进行判断;⑤基于识别出的实体和事件类型,以及Dynamic Multi-Pooling技术获取的句子级特征,对事件中的元素及其元素角色进行判断。⑥将识别出的事件数据进行结构化表示和存储。通过以上6个步骤,实现了实体识别、事件识别和元素角色抽取的联合训练,达到端到端事件联合抽取的目的。
(4)使用生态治理数据集对模型的性能进行验证。通过四个基于不同BERT模型的DMLSTM模型的实验表明,不同预训练语言模型对事件抽取的性能影响较大,在进行模型和研究框架的设计前需要选择合适的高性能预训练语言模型。本文提出的DMLSTM模型通过得到文本的句子级特征,在实体识别模块、事件识别模块和元素角色抽取模块分别取得了F1值0.623、0.535和0.297,与传统的BiLSTM模型相比有较大的提升。
通过基于BERT模型的端到端事件联合抽取模型DMLSTM,实现了从无标注的文本中自动抽取出生态治理事件,以期提高资源环境领域科研人员的知识获取效率。未来还将进行深入研究,进一步推动领域智能检索系统构建,支持领域知识图谱的建设,促进资源环境情报分析和服务的发展。