论文部分内容阅读
随着计算机和互联网技术的高速发展和持续演进,社会各界智能化、知识化服务的需求愈发明显,从而产生了越来越多有关知识图谱建设与应用的研究。而在众多领域知识图谱的研究和构建中,机构知识图谱的研究建设与应用受到越来越多的关注。一方面,构建机构知识图谱将为科技史研究与科学文化传播服务提供重要支持;另一方面,机构知识图谱是大数据环境下科技情报研究的重要支撑工具。机构变迁事件知识是机构知识图谱的重要组成部分,描述了机构的变迁演化过程和机构间的相互变迁关系,能与机构学科领域变迁、重要人物、重要成果、重大事件相互关联,从而为大数据环境下科技情报研究、科技史研究以及科学文化传播提供支持。
本论文面向科技研究领域,针对科研机构发展演变特点,构建机构变迁事件知识模型,研究提出从机构史志文本中抽取机构变迁事件知识的技术方案,并在实验中验证和完善,为相关研究与应用提供参考。具体而言,主要完成了以下工作:
首先,对国内外常规知识抽取技术(实体、关系抽取技术)进行仔细分析,并详细调研了各领域事件知识模型和事件知识抽取技术,总结和比较了各类模型和技术方法的优缺点和领域适用性,探究了相关研究对本研究工作的启示。
其次,从科研机构发展演变特点出发,参考国内外事件知识模型以及科研机构本体和规范文档,构建了机构变迁事件知识模型,并根据存储和实际表示需要,设计了四元组形式的机构变迁事件知识模型表示。
然后,结合知识抽取技术的调研分析结果和机构变迁事件知识模型的特点,提出一个多策略融合的机构变迁事件知识单元抽取方案,包括以下实现过程及技术方法:①抽取机构变迁事件知识句。采用基于BERT-WWM的事件句识别方法,从史志文档中抽取包含机构变迁事件知识的候选事件句,过滤非变迁事件信息。②抽取机构实体名称和事件时间。提出半自动语料标注的深度学习机构实体识别技术,从包含机构变迁事件知识句子中抽取机构实体,采用Standford NER工具标记事件时间。③识别事件类型与机构实体角色。采用基于扩展词表的事件触发词识别方法实现触发词识别和事件分类,提出基于改进句法分析树的卷积树核法,识别机构变迁事件知识中的机构实体角色、链接事件时间,并结合机构实体角色识别结果对事件类型进行二次分类。对机构实体、机构实体角色、事件类型、事件时间进行组合,形成机构变迁事件知识四元组。
最后,基于上述技术思路,搭建了实验平台进行实验,并对每个技术方法的有效性进行了验证和完善。经过事件句抽取、机构实体和事件时间识别、触发词识别和事件分类、角色判定等实验,机构变迁事件知识四元组抽取结果准确率为64.37%,基本符合机构变迁事件知识抽取的需要。此外,每阶段的实验结果也证明了各技术方法的有效性,能为包括实体抽取、论元角色判断、文本分类在内的技术领域提供新的技术方案。
本论文面向科技研究领域,针对科研机构发展演变特点,构建机构变迁事件知识模型,研究提出从机构史志文本中抽取机构变迁事件知识的技术方案,并在实验中验证和完善,为相关研究与应用提供参考。具体而言,主要完成了以下工作:
首先,对国内外常规知识抽取技术(实体、关系抽取技术)进行仔细分析,并详细调研了各领域事件知识模型和事件知识抽取技术,总结和比较了各类模型和技术方法的优缺点和领域适用性,探究了相关研究对本研究工作的启示。
其次,从科研机构发展演变特点出发,参考国内外事件知识模型以及科研机构本体和规范文档,构建了机构变迁事件知识模型,并根据存储和实际表示需要,设计了四元组形式的机构变迁事件知识模型表示。
然后,结合知识抽取技术的调研分析结果和机构变迁事件知识模型的特点,提出一个多策略融合的机构变迁事件知识单元抽取方案,包括以下实现过程及技术方法:①抽取机构变迁事件知识句。采用基于BERT-WWM的事件句识别方法,从史志文档中抽取包含机构变迁事件知识的候选事件句,过滤非变迁事件信息。②抽取机构实体名称和事件时间。提出半自动语料标注的深度学习机构实体识别技术,从包含机构变迁事件知识句子中抽取机构实体,采用Standford NER工具标记事件时间。③识别事件类型与机构实体角色。采用基于扩展词表的事件触发词识别方法实现触发词识别和事件分类,提出基于改进句法分析树的卷积树核法,识别机构变迁事件知识中的机构实体角色、链接事件时间,并结合机构实体角色识别结果对事件类型进行二次分类。对机构实体、机构实体角色、事件类型、事件时间进行组合,形成机构变迁事件知识四元组。
最后,基于上述技术思路,搭建了实验平台进行实验,并对每个技术方法的有效性进行了验证和完善。经过事件句抽取、机构实体和事件时间识别、触发词识别和事件分类、角色判定等实验,机构变迁事件知识四元组抽取结果准确率为64.37%,基本符合机构变迁事件知识抽取的需要。此外,每阶段的实验结果也证明了各技术方法的有效性,能为包括实体抽取、论元角色判断、文本分类在内的技术领域提供新的技术方案。