基于在线百科的弱监督命名实体识别技术研究与实现

来源 :苏州大学 | 被引量 : 0次 | 上传用户:chener
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
命名实体识别(Name Entity Recognition,NER)旨在识别自然文本中具有明确意义的实体,主要包括地点、人物和组织机构等类别。它是自然语言处理的基本任务之一,也是信息检索、问答系统和知识图谱构建等主流应用的前提基础。近年来,随着深度学习技术的发展以及数据的爆炸式增长,使用深度神经网络进行命名实体识别的方法达到了很好的效果,并逐渐成为主流。然而,大多数深度学习模型是数据驱动的有监督模型,需要大量人工标注的数据,成本极高。因此,研究如何减少命名实体识别标注语料的获取代价,具有重要的实用意义。弱监督是一种适用于含有少量标注数据或者标注数据含有噪声的场景下的学习方法。不少研究者尝试将弱监督的方法应用于实体识别,但是现有的弱监督实体识别方法依旧存在一些不足,比如众包只关注数据质量,主动学习的选择策略不佳等。针对这些不足,本文研究并实现了基于在线百科的弱监督命名实体识别方法,具体如下:(1)本文提出了一种主动学习与众包相结合的实体识别方法。在基本不降低实体识别模型效果的前提下,有效减少了标注语料的数量,降低了标注成本。(2)本文借助维基百科的数据生成实体识别语料。首先,训练了一个对维基百科页面进行分类的实体类别分类器。接着,将含有内链的文本对应的维基页面分类到相应的实体类别并转换为实体识别语料。(3)本文提出了一种结合数据增强和自学的弱监督实体识别方法。首先,对原有的少量实体识别语料进行数据增强,得到扩充后的训练集,在这个扩充后的训练集训练模型。然后,在对模型应用自学习的方法,进一步改进模型效果。该方法有效地缓解了模型训练数据不足的问题,具有实际的应用价值。我们在多个真实数据集上进行了实验对比。结果表明,本文提出的弱监督学习方法可以明显地降低实体识别模型所需要的标注语料数量,本文提出的数据增强方法可以有效地扩充语料的数据规模。
其他文献
在阵列信号处理中,信号源的波达方向(direction-of-arrial,DOA)作为一个热门的研究方向在声纳、雷达、通信、医学检测、电子对抗等领域有着广泛应用。传统经典的DOA估计算法
在互联网中存在着大量的文本数据,信息抽取可以从文本中提取出有效信息为我们所用,而关系抽取是信息抽取中重要的步骤之一,现有的关系抽取方法通常需要较多的标注语料,这需要
近年来,多智能体系统协调控制已经成为控制领域研究的一个热点,其中多智能体系统的一致性是最为基础和关键的问题。由于时间、成本等因素,既要求系统能够在一定的时间内达到一致,也需要一致性算法具有较强鲁棒性。因此,多智能体系统的有限时间一致性是一致性中的重要问题。由于实际中存在许多不确定因素,本文将研究有时延和噪声的多智能体系统的有限时间一致性问题。1.通过采用图论、牵引控制和李雅普诺夫稳定性等知识,研究
电容层析成像技术ECT(Electrical Capacitance Tomography)是一种用于测量管或容器中的空间介电常数分布信息的方法。由于具有非入侵感测,快速响应,易于携带,成本低等出色优
近些年来,随着网络的不断发展,互联网逐步成为了为用户提供大量信息资源的主要途径,信息传播更加全面更加快速且越来越具有影响力,信息数量不断增加的同时也有很多异常信息充斥其中,网络信息的质量令人担忧。目前国内外有很多关于网络信息可信度的研究,然而对于网络社区这一以内容为核心、是互联网用户发表、交流意见的主要场所之一研究较少。本文分析了网络社区及其用户行为的主要特征,包括内容以文本为主、短文本与口语化、
变压器是电网系统中能量转换和传输的核心设备,热量是导致变压器油纸绝缘性能劣化的最重要因素,开展油纸绝缘热老化产物的检测及机理研究,对评估油纸绝缘老化状态和预测变压器寿命具有重要意义。本文首先对油纸绝缘加速热老化试验及绝缘纸聚合度进行研究,其次对绝缘纸老化产物含量进行检测并分析与老化时间以及聚合度的关系,最后建立油纸绝缘热老化状态预测模型并分析绝缘纸降解机理。结果表明:在80℃下加热6h,可去除纸中
随着素质教育的不断推进,问题提出成了备受关注且贯通中外的教育议题,其教学法是鼓励和引导学生参与数学课堂活动的重要方法之一;平面几何以其自身的独特魅力,在初中数学课堂教学中占有重要地位。因为现有研究大多侧重于数学问题提出教学或几何教学的单一研究,所以如何将问题提出教学法与初中几何课堂有效融合,提高几何课堂效率,值得教育研究者探讨。对此,本研究从以下三个问题进行探讨:1、初中几何中问题提出教学的现状如
氮化镓及其相关的合金半导体材料是替代第一代(Si、Ge)和第二代(In P、Ga As)的第三代化合物半导体之一,由于其更为优异的光电性能,近年来得到迅速的发展。其中,三元合金材料之一
随着数据挖掘和云服务等智能技术的飞速发展,互联网中日益增长着大量的数据信息,其中包含了大量的文本数据,这些数量庞大的文本数据蕴含着巨大的社会价值。但是,由于日常生活
研究目的原发性肝脏神经内分泌肿瘤(Primary hepatic neuroendocrine neoplasms,PHNENs)极为罕见,很少有文献将其预后与其他NENs进行比较。本研究旨在探讨PHNENs与胰腺神经内分泌肿瘤(Pancreatic NENs,PanNENs)的不同预后,并分析预后相关因素。研究方法本研究收集了 2012年1月至2017年1月期间在浙江大学医学院附属第一医院确诊的