【摘 要】
:
随着从经济全球化到文化全球化的发展,人们希望可以随时随地获取世界各地的信息以促进生产生活。在全球化交流中,文字是人类记录和表达信息的首要形式,信息交融的过程必然会受到文字语言的影响。因此,如何有效地处理多语言文字信息是学术界和工业界当前面临的重要问题。近年来,深度学习技术深刻地影响了自然语言处理的发展进程和研究方式。基于深度学习的方法通常需要大规模的参数和数据来获得良好的性能,而这在多语言场景中是
【基金项目】
:
国家自然科学基金面上项目:面向开放域文本的智能化因果关系学习(61976103); 吉林省科技发展计划技术攻关项目:基于深度学习的因果关系学习与大知识库构建(20190302029GX)
论文部分内容阅读
随着从经济全球化到文化全球化的发展,人们希望可以随时随地获取世界各地的信息以促进生产生活。在全球化交流中,文字是人类记录和表达信息的首要形式,信息交融的过程必然会受到文字语言的影响。因此,如何有效地处理多语言文字信息是学术界和工业界当前面临的重要问题。近年来,深度学习技术深刻地影响了自然语言处理的发展进程和研究方式。基于深度学习的方法通常需要大规模的参数和数据来获得良好的性能,而这在多语言场景中是受限的。对于多语言自然语言处理任务,首先,低资源语言训练数据通常是稀缺的,其次,为每种语言维护多个模型显著增加了研究和应用的复杂度。因此,跨语言自然语言处理应运而生,其核心思想是通过模型和数据,将知识从源语言(高资源)迁移到目标语言(低资源),从而解决数据缺失、系统复杂和目标语言性能等问题。序列标注作为自然语言处理的基础任务和重要内容,旨在从非结构化文本数据中提取特定信息,是众多下游任务的关键前提,在跨语言自然语言处理中也有着同样的价值。本文以跨语言序列标注为研究内容,围绕零样本学习对现有方法总结归纳,针对存在的问题提出了相应的解决方案,具体研究工作如下:1.基于强化学习和知识蒸馏的跨语言命名实体识别。深度神经网络模型已被广泛用于序列标注任务,然而大部分方法仅适用于少数高资源语言。实际上,世界上大多数语言的序列标注有标签数据有限,甚至仅有无标签数据。面对这个挑战,跨语言序列标注早期依赖于源语言训练数据和翻译数据。为了利用在真实场景中相对容易收集的目标语言无标签数据,现有研究提出了一种基于半监督知识蒸馏的方法,通过目标语言无标签数据将知识从教师模型迁移到学生模型,缺点是学生模型模仿了教师模型所有的预测行为。针对以上缺点,从数据角度,本文提出了一种用于跨语言命名实体识别的基于强化学习和半监督学习的知识蒸馏方法。该知识蒸馏过程可以多轮迭代,并基于强化学习自适应地选择蒸馏中使用的无标签数据。实验结果表明,本文提出的方法可以针对不同语言模型的不同迭代动态地选择蒸馏样本,实现对目标语言大规模无标签数据的高效利用,性能显著优于基线方法,达到甚至高于多源语言知识蒸馏方法的水平。2.基于标签语义和对比学习的跨语言口语理解。预训练多语言模型虽然在零样本跨语言任务上展示了良好的性能,但各语言之间的表示对齐并不完善,导致部分目标语言上的模型迁移性能不理想。考虑到利用翻译数据微调模型会受到机器翻译的错误和可用性的影响,现有研究提出了一种仅依赖双语词典对源语言训练数据进行多语言语码转换的方法,通过构建下游任务的混合语言数据对齐多语言模型的表示。该方法局限于仅基于数据增强隐式地进行表示对齐,忽略了语义信息。针对以上问题,从模型角度,本文提出了一种用于跨语言口语理解的标签感知的自监督多层级对比学习方法。首先,本文利用槽类型集合,在标签感知模型中实现以其为锚点的跨语言知识迁移。其次,为了充分利用口语理解内在的语义层次,即话语-槽-词结构,本文提出了一个多层级对比学习框架。在上述三个层级,分别显式构建了“源语言话语-语码转换话语”、“源语言槽值-语码转换槽值”和“词的槽标签-槽值的词”的对比学习范式。实验结果表明,本文提出的方法在零样本跨语言口语理解中通过标签语义信息构建了不同层级上的对比学习,从语义角度优化了跨语言表示,与多语言动态语码转换方法相比,显著提高了性能。3.基于预训练和校准网络的跨语言序列标注。在跨语言分类任务上,现有工作的目标语言零样本迁移与源语言或目标语言监督训练之间的性能差距是可以接受的。但是,在跨语言序列标注任务上的差距十分可观,导致模型难以达到实用要求。因此,本文从任务角度,对零样本跨语言序列标注模型的结果进行分析,得出结论为一个主要性能障碍是模型预测中的边界错误。在目标语言上,零样本跨语言序列标注模型虽然可以有效地定位标注目标的局部上下文,但难以精确给出目标片段的边界。为了解决这个瓶颈,本文提出了一个两阶段跨语言序列标注框架。第一步中,基础模块采用序列标注模型来生成初始答案,第二步中,校准模块基于基础模块的输入输出以机器阅读理解的方式细化初始答案的边界。为了解决低资源语言缺乏训练数据的挑战,本文设计了一种基于自监督和弱监督的短语边界恢复任务,以增强校准模块的多语言边界检测能力。实验结果表明,本文提出的方法对多个零样本跨语言序列标注任务的多个基线都有明显提升,即使是在预训练任务没有覆盖的语言上也有很好的效果。
其他文献
随着互联网的高速发展与普及,大量的文字信息以图像形式在互联网平台上传播,这些文字中蕴藏着大量信息,如何从海量的文字图像数据中识别出文本并从中提取出有价值的信息已经成为一个亟待解决的问题。对于上述问题,目前通常基于深度学习技术对文本图像进行处理,使用基于深度学习的文本识别模型识别出图像中的文字信息,而后使用命名实体识别模型抽取文本中受关注的信息对象,可以有效对图像中的文本进行判别和分析。不同于英文单
随着雷达探测技术的发展以及电磁污染的日益严重,研制高效、轻质的电磁波吸收材料具有重要意义。碳纳米管具有吸收强、频带兼容性好、形态结构可控、质量轻、导电性可调等优点,是最具发展潜力的吸波材料之一。综述了碳纳米管/高分子有机物复合吸波材料、碳纳米管/磁性金属复合吸波材料、碳纳米管/铁氧体复合吸波材料以及碳纳米管/其他碳系吸波材料的制备方法和吸波性能,并对碳纳米管复合吸波材料未来的发展方向进行了展望。
补脑膏治愈急性脊髓炎1例李妍怡,夏永潮甘肃省中医医院730050苗某,女,37岁。因双下肢痿软无力6天,伴小便潴留于1992年3月30日住院。患者于1992年3月16日曾患上感,口服“感冒通”等药后治愈。8天后出现胸背部疼痛,并见双下肢无力,在当地卫...
蒙古族历史作为中华民族传承千年的文化瑰宝,是人类文明的重要精神财富。蒙古族历史书籍作为保存和记录蒙古族历史的主要载体,对蒙古族历史有着重要的意义。近年来,推荐技术的发展为用户获取个性化推荐服务提供了便捷。然而由于对记载民族文化书籍的信息化研究极少,蒙古族历史书籍领域缺乏用户阅读记录,导致无法直接利用单域推荐算法为用户进行书籍推荐。本文将蒙古族历史书籍领域缺乏用户相关信息的推荐场景定义为用户“零/低
本文进一步从斜压适应变化和正压适应变化的相互作用讨论了对系统发展的加速度的影响,指出能造成扰动不稳定发展的关键在于具有和发展方向相一致的加速度。当地球自转参数随纬度变化(即β)不为零时,它的作用将造成一个和发展方向相反的加速度。只有当斜压适应变化和正压适应变化造成的加速度大于β的抑制作用时,扰动才能不稳定发展,否则只能出现中性扰动。 对于中性的超长波,它的斜压部分(或温度场)是以近于平均西风U2的
针对水性油墨黏度测量方法存在操作复杂、主观性强等问题,利用可见/近红外光谱分析技术结合化学计量学方法,建立水性油墨黏度预测模型,实现水性油墨黏度的快速无损检测。首先,利用微型光纤光谱仪采集水性油墨样本的反射光谱;再通过比较不同预处理方法对原始光谱数据的预处理效果,分别基于原始全光谱及预处理后的光谱数据构建水性油墨黏度的偏最小二乘回归(PLSR)和主成分回归(PCR)预测模型;最后,将预处理后的光谱
<正>公益劳动是直接服务于公益事业、不取报酬的劳动,其目的在于培养学生为人民服务、为公众谋利益的良好思想品德,推动学生接触社会,深入生活,参加各种社会实践,形成良好社会风尚,是劳动教育的重要内容。在幼儿园阶段,公益劳动教育存在教育情境单一化,教育内容固定化,教育方法脱离幼儿的一日生活等问题。我园深化劳动教育的内涵,充分利用自然环境和社会文化资源,扩展幼儿的劳动实践空间,以“畔畔益站”公益劳动项目,
在雷达及作战体系领域,从非结构化情报文本中抽取雷达及武器装备实体是构建电磁辐射源知识图谱的基础工作之一。由于领域的特殊性,情报文本中存在大量的嵌套结构。嵌套命名实体识别(Nested Named Entity Recognition,NNER)指自动从无结构文本中提取出预定义语义类型的嵌套命名实体,获取丰富的实体及实体内部之间的语义关系信息。当前的大多数NNER模型都假设有充足的训练样本进行训练。
<正>数字化转型是大显示终端的唯一选择,主动转、快速转才能赢得发展先机。“十三五”期间,中国新型显示产业飞速发展,尤其是面板产线达到高峰,成为全球新型显示产业的“重镇”,达到“量”的极致。进入“十四五”,为促进“质”的提升,国家将新型显示产业列入“十四五”国家重点研发计划重点专项。稳居新型显示产业的龙头,海信是如何成功转型的?未来将进行怎样的战略布局?《经济》杂志、经济网记者采访了海信集团高级副总
近年来,文旅融合成为旅游的一大热点。本文利用网络调查问卷收集不同人群对于文旅IP的理解与需求,再以成功的文旅融合案例为研究对象,通过ROST CM6分析携程网用户在线评论,研究得出文旅IP吸引力要素主要体现在项目设置、表演形式、服务质量、体验感等方面,进而提出特色文旅IP的塑造与推广建议。