机构知识图谱构建中的机构变迁事件知识抽取技术研究

来源 :中国科学院大学 | 被引量 : 0次 | 上传用户:manacewj
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着计算机和互联网技术的高速发展和持续演进,社会各界智能化、知识化服务的需求愈发明显,从而产生了越来越多有关知识图谱建设与应用的研究。而在众多领域知识图谱的研究和构建中,机构知识图谱的研究建设与应用受到越来越多的关注。一方面,构建机构知识图谱将为科技史研究与科学文化传播服务提供重要支持;另一方面,机构知识图谱是大数据环境下科技情报研究的重要支撑工具。机构变迁事件知识是机构知识图谱的重要组成部分,描述了机构的变迁演化过程和机构间的相互变迁关系,能与机构学科领域变迁、重要人物、重要成果、重大事件相互关联,从而为大数据环境下科技情报研究、科技史研究以及科学文化传播提供支持。
  本论文面向科技研究领域,针对科研机构发展演变特点,构建机构变迁事件知识模型,研究提出从机构史志文本中抽取机构变迁事件知识的技术方案,并在实验中验证和完善,为相关研究与应用提供参考。具体而言,主要完成了以下工作:
  首先,对国内外常规知识抽取技术(实体、关系抽取技术)进行仔细分析,并详细调研了各领域事件知识模型和事件知识抽取技术,总结和比较了各类模型和技术方法的优缺点和领域适用性,探究了相关研究对本研究工作的启示。
  其次,从科研机构发展演变特点出发,参考国内外事件知识模型以及科研机构本体和规范文档,构建了机构变迁事件知识模型,并根据存储和实际表示需要,设计了四元组形式的机构变迁事件知识模型表示。
  然后,结合知识抽取技术的调研分析结果和机构变迁事件知识模型的特点,提出一个多策略融合的机构变迁事件知识单元抽取方案,包括以下实现过程及技术方法:①抽取机构变迁事件知识句。采用基于BERT-WWM的事件句识别方法,从史志文档中抽取包含机构变迁事件知识的候选事件句,过滤非变迁事件信息。②抽取机构实体名称和事件时间。提出半自动语料标注的深度学习机构实体识别技术,从包含机构变迁事件知识句子中抽取机构实体,采用Standford NER工具标记事件时间。③识别事件类型与机构实体角色。采用基于扩展词表的事件触发词识别方法实现触发词识别和事件分类,提出基于改进句法分析树的卷积树核法,识别机构变迁事件知识中的机构实体角色、链接事件时间,并结合机构实体角色识别结果对事件类型进行二次分类。对机构实体、机构实体角色、事件类型、事件时间进行组合,形成机构变迁事件知识四元组。
  最后,基于上述技术思路,搭建了实验平台进行实验,并对每个技术方法的有效性进行了验证和完善。经过事件句抽取、机构实体和事件时间识别、触发词识别和事件分类、角色判定等实验,机构变迁事件知识四元组抽取结果准确率为64.37%,基本符合机构变迁事件知识抽取的需要。此外,每阶段的实验结果也证明了各技术方法的有效性,能为包括实体抽取、论元角色判断、文本分类在内的技术领域提供新的技术方案。
其他文献
随着移动通信技术的飞速发展和终端设备的不断升级,内容丰富、形式生动的短视频开始展现传播力优势。在科普领域,移动短视频表现出惊人的生命力,推动了科普的数字化升级。用户接受角度下科普短视频的使用影响因素值得探究。  在校大学生是短视频的重要用户群体,具备较好的短视频使用基础,同时科学知识需求强烈。本研究以在校大学生为研究对象,通过访谈探究其使用科普短视频的影响因素;在访谈的基础上,结合科普短视频的特点
伴随着新知识经济时代和“互联网+”的到来,公众的信息需求呈现出多元、动态、异质的走向,个体信息组织和机构往往受自身能力限制,无法提供完善的信息服务,也无法适应大环境的新变化和新要求。图书馆作为支撑区域知识信息发展的中心机构,也不可避免地要加强与其他行业机构的深度合作交流,放宽眼界,寻求新的合作对象与合作模式,不断探索与政府、企业、科研机构等不同对象的合作模式以占领信息服务高地。但是当前图书馆尤其是
在生命医学领域,以论文(Paper)、专利(Patent)、临床试验(Clinical Trial,CT)、疾病(Disease)和药物(Drug)等为核心的科技数据资源呈“井喷式”增长,规模庞大的数据资源促进了数据驱动的知识发现与技术突破,也对科研人员高效利用数据、发现深层次知识带来了新的挑战。学科知识问答综合运用自然语言处理、知识组织、信息检索及机器学习等技术对学科领域的各种“碎片化”的数据进
国家“双一流”建设背景下,一流大学的建设离不开一流学科建设。科研水平是学科整体实力的重要组成部分,科学合理地评价学科的科研水平,认清我国学科与世界一流学科科研水平的差距,不仅有利于完善学科的科研管理机制,树立正确的学科发展观,也可以为相关部门制定学科发展战略提供依据。  本文通过调研国内外学科科研评价现状,总结现有问题并确立本文拟解决的两个问题,即指标的国际可比性问题和学科的分类评价问题。首先,对
学位
开放科研数据实践推进过程中基础设施、政策环境、配套服务等投入不断完善,科研人员对开放科研数据重用的参与度较低、存在诸多顾虑、结果反馈较少,成为继续推进该运动的现实困境。科研人员的数据重用行为是开放科研数据理念推行和效果评价的关键环节,有利于最大化发挥科研数据价值、促进科研创新。以科研数据重用环节为切入点,形成科研数据重用与开放共享相互促进机制(数据重用生态系统),兼具降低投入和可持续发展的优势。本
学位
技术演化分析能帮助国家、企业或研究人员梳理技术发展脉络,把握技术发展趋势。目前,科研界已经提出了一系列比较成熟的技术演化研究方法,通常基于专利元数据或专利文本内容开展技术演化研究,专利分类在这两类研究中被作为既成技术知识体系使用,但并未考虑到专利分类体系也随着技术发展和演化而被修订。鉴于此,本文提出结合专利分类体系修订及其专利公开数据来研究技术演化这一命题.  首先,本文充分调研了专利分类体系及其
学位
天文科学数据,指的是用计算机方法分析望远镜收集的真实的海量观测数据辅助天文学家处理分析科学现象,进而从中发现新的天体、空间和物理规律,进一步了解人类身处的宇宙。天文科学数据的管理包括数据的收集、存档、分析、理解、访问和重用等活动阶段,数据正在成为天文领域内新的通货,对于天文领域的发展具有至关重要的作用。天文科学数据的利益主体,是天文数据管理的重要组成部分,各个利益主体伴随着大量的知识活动,形成了对
学位
在数据价值时代,产生、使用和管理数据信息,对于消费者、政府和企业的正常生活和运转必不可少。其中,如何使用与评价新型的、数量急剧增长的产业数据资源是人们亟需解决的问题。为此,学术界更加注重推动数据增长的未来宏观趋势,同时也加强评估数据业务流程,从数据产生、存储、使用和管理等各个方面研究产业智库专业数据体系,挖掘产业数据未来价值。  然而,目前产业智库专业数据体系还存在整体规划混乱、定位不清、数据供给
学位
随着互联网以及信息技术的飞速发展,网络中的信息资源呈指数级增长,人们很难做到不知疲倦地学习,开始期待计算机能够自动从海量信息中学习知识并像人一样进行表达和创作。自动生成具有对比关系的段落文本,不仅可以帮助人们自动获取文本之间对比的重要内容,而且能够节约人们写作的时间与精力,为面向特定写作关系的文本自动生成研究提供了一些思路,也为面向特定写作意图的机器自动写作的研究和应用提供了参考。  本研究着眼于
学位
当前科技论文的评价大多利用文献计量指标和同行评议的方式进行评估。然而,文献计量指标重“量”轻“质”,同行评议受主观因素影响,公平性亦饱受争议。因此,如何根据论文创新点内容,客观衡量科技论文的原创性程度就成为科技评价领域的难点问题,它不仅能为科技评价提供参考依据,对科研立项、项目查新、信息检索等应用也有重要价值。  研究以科技论文创新点为研究对象,探索其原创性量化测度方法。利用语义相关度和上下文语境
学位