生态治理技术领域事件抽取技术研究

来源 :中国科学院大学 | 被引量 : 0次 | 上传用户:hbhhl2006
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
文本数据的爆炸式增长,使得人们在获取需要的信息时常常会被海量信息淹没,降低了获取信息的效率。生态治理技术领域情报分析在面对不断增长的文献数据时,也面临着从文本中获取重要信息和特定内容的挑战。在已发表的生态治理技术领域文献中,存在大量的生态治理事件无法高效地获取,使得研究人员在进行研究时无法便利地得到相关事件数据的支持,降低了研究效率。有研究者将命名实体识别技术应用于生态治理技术领域,通过信息抽取技术将时间实体、技术实体和地点实体自动抽取出来。但是抽取出来的实体之间是相互独立的个体,无法获取实体之间的联系。因此本文提出使用事件抽取技术进行生态治理事件抽取的研究,以期获取实体间的关系,从而提高研究人员获取信息的效率,为领域知识图谱和领域智能信息检索的构建打下基础。
  随着算法的成熟和计算能力的提升,深度学习逐渐成为自然语言处理领域内的主流方法,事件抽取技术也从早期的基于模式匹配的方法和基于机器学习的方法,向基于深度学习的方法转变。BERT语言模型通过获取更加丰富的上下文语义信息,逐渐取代了Word2Vec的地位。目前主流的事件抽取模型将实体信息作为已知辅助事件的抽取,但是在生态治理事件实际抽取应用中,需要从大量无标记文本中实现事件抽取,因此本文提出了一种基于BERT语言模型的端到端事件联合抽取模型DMLSTM,主要包含以下内容:
  (1)构建生态治理事件数据集。通过对通用领域的事件数据集进行调研,以及对生态治理技术领域文献的阅读和分析,对生态治理事件及其包含的事件类型、实体类型和元素角色类型进行了梳理和定义。其中事件类型包括:提出治理方案,实施生态治理和生态治理效果;实体类型包括:地区、林草资源、地形地貌类型、时间、治理技术和方法、治理目的和治理效果;元素角色包括:治理地区、林草资源、地形地貌类型、治理开始时间、治理结束时间、治理持续时间、治理技术和方法、治理目的和治理效果。基于对生态治理事件的实体、事件类型和元素角色的定义,和生态治理事件文本特点的分析归纳,对文本进行手工标注。
  (2)将BERT预训练语言模型引入事件抽取任务中。在自然语言处理的各项任务中,如何使计算机能更加准确的读取文本语义实现自然语言理解一直是研究者们不断探索的方向之一。BERT预训练语言模型使用双向Transformer结构在大规模无标记文本中进行训练,相对于传统的Word2Vec等词嵌入工具获取了文本中更深层次的语义信息,在多项自然语言处理任务中取得了最好的效果。本文将BERT模型首次应用于事件抽取任务,并基于资源环境领域文本数据训练得到面向领域的RoBERTa-eco模型,通过更加丰富的上下文语义信息以提高生态治理事件的抽取效果。
  (3)提出端到端事件联合抽取模型DMLSTM。基于生态治理事件抽取的应用需求,本文提出了一种端到端的事件抽取模型DMLSTM。模型的计算流程如下:①将文本输入BERT模型,获取每个字符的初始向量;②使用BiLSTM神经网络对上下文信息进行学习,获取文本的字符级特征;③使用实体识别模块,对文本中的实体进行识别;④使用事件识别模块,对文本中的触发词进行识别,并对事件类别进行判断;⑤基于识别出的实体和事件类型,以及Dynamic Multi-Pooling技术获取的句子级特征,对事件中的元素及其元素角色进行判断。⑥将识别出的事件数据进行结构化表示和存储。通过以上6个步骤,实现了实体识别、事件识别和元素角色抽取的联合训练,达到端到端事件联合抽取的目的。
  (4)使用生态治理数据集对模型的性能进行验证。通过四个基于不同BERT模型的DMLSTM模型的实验表明,不同预训练语言模型对事件抽取的性能影响较大,在进行模型和研究框架的设计前需要选择合适的高性能预训练语言模型。本文提出的DMLSTM模型通过得到文本的句子级特征,在实体识别模块、事件识别模块和元素角色抽取模块分别取得了F1值0.623、0.535和0.297,与传统的BiLSTM模型相比有较大的提升。
  通过基于BERT模型的端到端事件联合抽取模型DMLSTM,实现了从无标注的文本中自动抽取出生态治理事件,以期提高资源环境领域科研人员的知识获取效率。未来还将进行深入研究,进一步推动领域智能检索系统构建,支持领域知识图谱的建设,促进资源环境情报分析和服务的发展。
其他文献
现如今庞大的科技文献资源数量给科研工作带来了一定困难,当前,研究人员大多人工进行筛选、阅读文献、整理文献核心内容,耗时耗力;且现存大多数文献尚未实现规范的结构化摘要,若需了解其核心研究内容需阅读相当篇幅进行理解总结。针对以上现状,如何快速高效地理解论文并对知识进行组织尤为重要,因此,对海量科技文献资源进行分析、挖掘,并自动化地组织其核心研究内容,对科研工作有重要的应用价值。  一篇科技论文的核心研
学位
网络技术与全球开放获取运动的蓬勃发展重新塑造了学术出版和学术交流模式,科研人员迫切需要提升学术出版素养以应对学术出版环境的快速变化和与日俱增的出版压力。同时,信息环境的转变和科研范式的演变为信息素养教育带来了新的发展机遇,推动信息素养教育逐步向强调科研与创新素养能力培养的泛信息素养教育体系发展。学术出版素养作为泛信息素养教育的重要研究方向之一,为高校图书馆带来新的发展机遇。目前,已经有部分国外高校
随着国家提出深化改革培育世界一流科技期刊,重点实施中国科技期刊卓越行动计划,期刊的发展受到前所未有的关注和支持,中国学术期刊正迎来良好的发展契机。学术期刊是重要的学术交流媒介,学术期刊的发展与本学科的发展密切相关,优势学科领域的期刊发展相对更具优势,整体效益更高。在国际一流科技期刊建设中,有必要了解中国优势学科期刊的发展情况、国际学术地位及其与学科的匹配度;从国际影响力发展态势的角度把握中国优势学
学位
习近平总书记在十九大报告中提出乡村振兴战略,强调要发挥农民主体作用,坚持农业农村优先发展。人是生产力中最具有决定性的因素,因此,推动乡村振兴战略,最关键的是调动农民的主观能动性。信息化时代,信息素养已经成为劳动者必备的技能。新型职业农民信息素养培育,对于我国发展现代农业、实现乡村振兴战略至关重要。本研究试图构建一套新型职业农民信息素养测度体系,并通过实证研究,探讨培育提升新型职业农民信息素养的策略
当前全球科技创新活动空前活跃,新的科技与产业变革正在影响着世界经济的发展局势。科技创新是国家强盛、民族进步的基础,是提高生产力和发展经济的第一要素,是促进现代化建设、提高国际竞争力的关键。习近平总书记在“科技三会”指出,科技创新,国家赖之以强,企业赖之以赢,人民生活赖之以好。科技创新不仅影响着国家的前途命运,也是企业发展进步和保持竞争力的不竭动力,还很大程度上影响着人们的生活生产方式。技术转移是科
学位
With the development of mobile intemet,Web services tend to be fragmented and heterogeneous.The demands of users are expressed in multi-dimensionalities.Service recommendation is an efFective way to h
学位
随着语义网和大数据技术的快速发展,数字化数据呈指数增长,信息内容日趋复杂、质量参差不齐,造成了“信息过载”、“知识饥渴”等问题。叙词表致力于组织和管理知识信息,不仅是图书情报的基础工具,还广泛应用于知识抽取、本体学习等领域。在大数据背景及语义网环境下,更新维护及时的叙词表对于把握不同学科领域发展和应用具有重要作用。  当前,叙词表的编制和维护存在两个问题:一是,重编制、轻应用、疏修订;二是,以手工
随着全球大数据技术的高速发展,知识变革的步伐和范围进一步加剧,知识载体的多渠道、多来源、多格式、非结构化等复杂异构现象已成为常态,已严重阻碍了领域知识在多科研主体间的共享和重用,亟需领域本体的支撑。轻量级领域本体作为一种基于领域概念和概念间语义关系来表示和描述特定领域知识结构体系的重要模型,已成为领域知识结构化组织、体系化集成、智能化挖掘、语义化分析计算的关键支撑,也是专题领域知识图谱构建与应用不
开放科学环境下知识生产的模式和知识产出的形式都在发生重大变化。一方面,科学问题的综合化和复杂化使得科学研究组织的跨学科、规模化和协同化特征日益明显,大量专业科研人员和非专业科研人员的科学协同过程,导致学术贡献的形式呈现出复杂和多样态局面,以作者身份为主的学术贡献承认体系,已经不能满足对各种多样化非作者人员学术贡献的承认要求。另一方面,开放科学大力推动科学过程的全方位开放发展,使得科学产出的形式同样
学位
在当前新环境下,面对图书出版量大幅度增长和图书质量参差不齐的现状,如何科学、合理地对图书进行评价已经越来越成为出版业以及学术界等共同关注的重要问题。传统图书影响力评价方法主要包括定性评价和定量评价。定性评价以同行评议为主,虽然评价效果好但存在主观性较强、评议过程不透明、评价标准不统一等弊端;定量评价主要包括引文分析方法和馆藏量法等。引文分析方法无法面向所有图书,缺乏准确统计图书引文的工具,且只能评
学位