基于少样本与零样本学习的领域实体识别算法研究

来源 :中国科学技术信息研究所 | 被引量 : 0次 | 上传用户:xinghun124
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
作为语义知识库、知识图谱的基本组件,命名实体识别(Named Entity Recognition,NER)对智能系统建设和科技情报服务都起到重要作用。近年来,深度学习方法在特征抽取深度和模型精度上表现优异,已经超过了传统方法,但无论是传统机器学习还是深度学习方法都依赖大量标注数据来训练模型,一些研究已经面向少样本(Few-shot)和零样本(Zero-shot)情况。而整体上,现有的研究对少样本和零样本NER问题探讨较少。鉴于此,本文全面总结了面向少样本与零样本学习NER方法,具体地,按照数据、模型、特征、知识的学习逻辑区分为4类:基于数据增强、模型迁移、特征变换、知识链接的方法,并对这些方法进行分析和比较。
  首先,我们分析了不同神经网络方法对实体性能的影响,选择词嵌入和神经网络模型;然后,我们借助专家智慧并结合金融科技语料标注了一批实体样本;最后,针对少样本和零样本实体识别中的问题提出相应改进方法。具体地,本文主要工作和贡献如下。
  (1)基于语义相似度与不确定性的主动迁移学习方法。针对少样本识别情况,大多数工作考虑使用迁移学习和主动学习方法,但在特定领域,实体差异性较大、存在大量离群孤立点,现有的方法对于特征描述不完全,导致准确性不高。为此,我们提出一种新的方法:基于语义相似度与不确定性的主动迁移学习方法,其框架主要包含迁移学习分类器和主动学习选择器。
  (2)融合多特征和实体部件的命名实体识别方法。针对零样本情况下传统机器学习方法识别困难、性能不理想问题,提出融合多特征和实体部件的命名实体识别方法。该方法结合多特征和术语部件,利用相近实体的语义关系构建桥梁,进而实现金融科技领域零样本实体识别,该方法对无标注数据实体识别有重要意义,对自然语言处理无监督学习任务也起到借鉴作用。
  最后,本文整合分析了基于少样本与零样本学习的实体识别方法,对其存在的问题进行分析,并对未来的研究方向进行预测。
其他文献
“后疫情”时代加速了人们生活、学习和工作方式的改变,数字经济成为主要发展趋势。产业数字化、智能化加速发展,推动了疫情防控中新业态、新模式的产生,促使多领域合作的出现。伴随跨领域研究的深入,知识产权的保护加快企业和国家的经济发展。为了整合科研人员与实践人员之间的知识,需要建立跨学科的知识流动。随着科技社会的进步与发展,单一的学科理论、研究方法以及技术不再适用于解决出现的发展问题。通过不同学科领域的交
北京是我国人工智能发展的重要地区,汇集了全国最为丰富的人工智能人才资源。本文以北京市人工智能基础高端人才为研究对象,通过对其结构和流动特征进行分析,以在一定程度上了解我国人工智能基础研究高端人才队伍的现状,为政策制定找到切入点。本文首先通过文献调研,在已有研究成果的基础上,梳理基础研究、高端科技人才、人工智能人才的相关概念及特征。其次,从人才结构和人才流动两个维度,采取文献计量分析、聚类分析、社会
学位
科技资源作为国家重要战略资源,为科技活动提供了物质保障,为科技管理、决策和科学研究提供了基础条件,对于支撑科技发展、提高国家科技创新能力、促进经济发展都具有重要意义。由于科技资源类型多样,其使用主体用户也分不同层次,包含来自科技型企业、高校、科研院所、政府等不同机构的多类用户,不同的用户对科技资源的需求往往不同,用户对科技资源的专业性、个性化、多元化、动态化以及集成化需求不断增强。传统的资源组织描
学位
图书馆是公共文化服务体系建设中的中坚力量,承载着公共文化服务的主要内容。面对人民群众日益增长的文化需求,基本公共文化服务供给不足和配置不均问题日渐凸显。在此背景之下,如何促进图书馆资源的合理配置,更好地惠及人民群众,是图书馆更新建设的重要内容。可达性作为公共设施服务效能和空间布局的评价指标,可用于衡量居民到达图书馆的便捷度、图书馆空间布局的合理性。图书馆可达性的研究有助于为政府寻求合理的图书馆空间
随着大数据时代的到来,科技文献数量巨大且增长速度日益加快,获得准确、及时、快速、全面的科技情报、及时了解科技发展态势是每位科研人员的工作需求和共同难题。一方面,现有的科技文献信息系统侧重于保障科技文献获取,检索系统侧重于针对元数据的查询或者文中词语的组织与索引,距离满足科技情报需求还有一定差距。另一方面,科研人员在进行科学研究时也面临着课题选择、投稿期刊选择、合作伙伴选择、基金申请选择等科研决策方
学位
在创新驱动发展的大背景下,科技查新和文献检索等科技咨询服务逐步走向市场化,使得查新工作不仅仅要面临着来自市场严峻考验,而且查新的内涵与服务模式也发生了相应的变化。基于此,更多的检索手段被提出,更多的查新分析方法被投入,服务内容也更有深度。  本文提出了将对抗学习的方法应用到查新检索式的自动生成中,旨在为科技查新服务提供自动化流程。将模型部署到面向自动处理的科技查新系统平台中,实现了依据查新委托单中
学位
随着知识经济的到来,创新能力成为衡量区域竞争力的重要标准,也是区域经济增长的源泉。我国已全面进入创新驱动发展的新时代,区域创新是解决区域发展不平衡问题的根本途径,是国家创新发展的基础。为提升区域创新能力,从东部率先发展、西部开发、东北振兴和中部崛起到京津冀协同发展、粤港澳大湾区、长三角一体化等,我国实施了一系列区域发展战略,在这些战略的支撑下,京津冀、长三角、珠三角、长江中游、成渝等十个主要区域的
学位
自从我国加入WTO世界贸易组织后,从DVD、打火机、彩电等传统行业再到生物医药、数码芯片等高科技行业,我国在专利方面频繁遭遇专利摩擦和专利纠纷,给我国的产业、科技发展造成了巨大损失和威胁。专利风险研究尤其是国家层次的专利风险研究对于规避这种损失和威胁具有重要意义。  本文面向国家层次专利风险预警需求,基于专利组合分析方法,综合运用风险管理理论和预警管理理论,对专利风险(特别是国家层次专利风险)的内
长期的查新实践发现,查新员在实际工作中形成了行之有效的检索技能和方法,反复验证并固化了其检索逻辑,如对技术层次的分解和概括、检索词的确定与扩展、检索式的组配等,这种隐性知识难以表征和传授,查新机构难以共享和管理,存在大量隐性知识流失现象,构建查新词表是将查新员检索经验显性化并加以优化整合的一种途径。  本研究首先从词表与业务需求、跨学科检索、中英文翻译和查新员经验的积累总结4个角度分析查新员需求,
学位
国际合作是科技创新发展的重要机制,研究国际科技合作模式及合作方向选择,对充分利用各种资源、提升合作效率和质量,切实支撑中国创新驱动发展战略具有重要意义。本研究从中国科技创新合作的分类国别战略视角出发,归纳总结五种合作模式类型,对合作模式的特征及适用范围进行分析,提出不同合作模式下的科技领域合作方向选择策略,为科技领域国际合作的科研管理工作提供决策支持。  首先,以中国科技领域国际合作为研究内容,从