面向叙词表更新的术语与关系抽取技术研究

来源 :中国科学院大学 | 被引量 : 0次 | 上传用户:heyouzhang033
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着语义网和大数据技术的快速发展,数字化数据呈指数增长,信息内容日趋复杂、质量参差不齐,造成了“信息过载”、“知识饥渴”等问题。叙词表致力于组织和管理知识信息,不仅是图书情报的基础工具,还广泛应用于知识抽取、本体学习等领域。在大数据背景及语义网环境下,更新维护及时的叙词表对于把握不同学科领域发展和应用具有重要作用。
  当前,叙词表的编制和维护存在两个问题:一是,重编制、轻应用、疏修订;二是,以手工为主,机器为辅,依赖专家的领域知识。网络环境下各个专业领域中新术语和关系不断涌现,人工为主的方式难与科技发展和词汇增长速度相匹配,传统的基于统计学或语言学的术语抽取与关系识别方法已不能满足叙词表的发展需求。为了保持叙词表的生命力和实用性,提高叙词表更新效率和准确率,本文研究了面向叙词表更新的术语与关系抽取技术,引入机器学习,设计并实现了一个完整的、可灵活实施的叙词表维护更新技术框架。
  本文通过调研国内外相关研究,发现叙词表更新是一个比较复杂的过程,不仅要抽取出领域术语,还要识别出术语间的不同关系:针对领域术语抽取,提出了一种基于多头注意力机制的BiGRU-CRF模型,在此基础上还设计了基于改进词嵌入模型的领域候选词评价方法;对于术语间关系识别,采用融合词向量和多策略的方法来识别上下位关系、同义关系和相关关系,将具有一定语义关系的术语对映射到关系解空间中。最后文章以《地质学汉语叙词表》为实证对象,抽取并整理了该领域的术语和关系,并提供了基于图数据库Neo4j的存储和可视化展示。实验结果显示神经网络模型能够有效抽取领域候选词,对于领域专业人员来说,领域候选词评价方法筛选出的领域术语以及多策略关系识别方法识别出的多种关系具有参考性,能够减轻更新叙词表过程中的人工操作。
其他文献
当前科技论文的评价大多利用文献计量指标和同行评议的方式进行评估。然而,文献计量指标重“量”轻“质”,同行评议受主观因素影响,公平性亦饱受争议。因此,如何根据论文创新点内容,客观衡量科技论文的原创性程度就成为科技评价领域的难点问题,它不仅能为科技评价提供参考依据,对科研立项、项目查新、信息检索等应用也有重要价值。  研究以科技论文创新点为研究对象,探索其原创性量化测度方法。利用语义相关度和上下文语境
学位
随着计算机和互联网技术的高速发展和持续演进,社会各界智能化、知识化服务的需求愈发明显,从而产生了越来越多有关知识图谱建设与应用的研究。而在众多领域知识图谱的研究和构建中,机构知识图谱的研究建设与应用受到越来越多的关注。一方面,构建机构知识图谱将为科技史研究与科学文化传播服务提供重要支持;另一方面,机构知识图谱是大数据环境下科技情报研究的重要支撑工具。机构变迁事件知识是机构知识图谱的重要组成部分,描
基础研究领域领军人才,作为优秀的高层次科技人才群体,是国家战略性资源以及科技事业发展的关键因素。正确认识基础研究领域领军人才的特征,把握基础研究领域领军人才的培养和成长规律,关系到国家经济社会发展和核心竞争力的提高。作为基础研究和基础性应用研究活动的主要产出形式,科研论文是影响基础研究领域领军人才职称晋升、项目申请、行政任职等关键事件发展的重要因素。通过对比分析这些关键事件时间点的科研表现,描绘基
学位
长三角区域作为中国区域一体化程度最高的地区,不仅仅具有较强的经济活力,同时也面临着严重的环境问题。长三角区域当前正处于提升竞争力、创新驱动发展的关键阶段,针对长三角区域经济发展面临的严峻的环境问题,为促进长三角区域的经济可持续性健康发展,长三角相关政府出台了诸多的环境政策。因此通过研究长三角区域的环境政策,对长三角区域的环境政策优化调整提供合理化的政策建议,能够有效地支撑中央和国家重大的战略部署,
现如今庞大的科技文献资源数量给科研工作带来了一定困难,当前,研究人员大多人工进行筛选、阅读文献、整理文献核心内容,耗时耗力;且现存大多数文献尚未实现规范的结构化摘要,若需了解其核心研究内容需阅读相当篇幅进行理解总结。针对以上现状,如何快速高效地理解论文并对知识进行组织尤为重要,因此,对海量科技文献资源进行分析、挖掘,并自动化地组织其核心研究内容,对科研工作有重要的应用价值。  一篇科技论文的核心研
学位
网络技术与全球开放获取运动的蓬勃发展重新塑造了学术出版和学术交流模式,科研人员迫切需要提升学术出版素养以应对学术出版环境的快速变化和与日俱增的出版压力。同时,信息环境的转变和科研范式的演变为信息素养教育带来了新的发展机遇,推动信息素养教育逐步向强调科研与创新素养能力培养的泛信息素养教育体系发展。学术出版素养作为泛信息素养教育的重要研究方向之一,为高校图书馆带来新的发展机遇。目前,已经有部分国外高校
随着国家提出深化改革培育世界一流科技期刊,重点实施中国科技期刊卓越行动计划,期刊的发展受到前所未有的关注和支持,中国学术期刊正迎来良好的发展契机。学术期刊是重要的学术交流媒介,学术期刊的发展与本学科的发展密切相关,优势学科领域的期刊发展相对更具优势,整体效益更高。在国际一流科技期刊建设中,有必要了解中国优势学科期刊的发展情况、国际学术地位及其与学科的匹配度;从国际影响力发展态势的角度把握中国优势学
学位
习近平总书记在十九大报告中提出乡村振兴战略,强调要发挥农民主体作用,坚持农业农村优先发展。人是生产力中最具有决定性的因素,因此,推动乡村振兴战略,最关键的是调动农民的主观能动性。信息化时代,信息素养已经成为劳动者必备的技能。新型职业农民信息素养培育,对于我国发展现代农业、实现乡村振兴战略至关重要。本研究试图构建一套新型职业农民信息素养测度体系,并通过实证研究,探讨培育提升新型职业农民信息素养的策略
当前全球科技创新活动空前活跃,新的科技与产业变革正在影响着世界经济的发展局势。科技创新是国家强盛、民族进步的基础,是提高生产力和发展经济的第一要素,是促进现代化建设、提高国际竞争力的关键。习近平总书记在“科技三会”指出,科技创新,国家赖之以强,企业赖之以赢,人民生活赖之以好。科技创新不仅影响着国家的前途命运,也是企业发展进步和保持竞争力的不竭动力,还很大程度上影响着人们的生活生产方式。技术转移是科
学位
With the development of mobile intemet,Web services tend to be fragmented and heterogeneous.The demands of users are expressed in multi-dimensionalities.Service recommendation is an efFective way to h
学位