基于外部知识协同的古文到现代文机器翻译研究

来源 :中国科学技术信息研究所 | 被引量 : 0次 | 上传用户:Lu153
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
我国源远流长的历史,为后人留下了卷帙浩繁的古文典籍。这些古文献不但具有极高的文学价值,还可以传播历史信息从而兼具历史价值。用机器来实现古文今译,不仅可以跨越古今之间的语言鸿沟,还有助于传递古文献中蕴含的历史知识和文化信息,为古文外译提供重要的参考,促进中华文化走向世界。
  在已有的古文机器翻译研究中,多数的研究着力于古文到现代文之间平行语料库的构建,以及将各种机器翻译模型应用在古文到现代文的翻译,仅做了简单尝试或微小调整,研究分布在对句子进行分词或分字的粒度选择以及加入外部字典知识指导翻译等。经过梳理这些成果发现古文今译仍然存在三个问题。1)语料稀缺问题。当语料不足时,现有机器翻译方法生成译文的顺畅性、可读性都将受到影响。2)语言风格差异问题。我国各时期古文献的遣词和造句差别很大。3)一词多义(活用)问题。古文词汇在不同的上下文中有着词义相差甚远的译法,仅仅依靠翻译系统很难进行甄别常常导致错译。
  针对古文机器翻译的上述问题,作者主要贡献为对外部知识的挖掘、外部知识优化古文机器翻译效果的方法的提出。在对外部知识的挖掘上,本研究在充分分析古籍白话译本和古汉语词典的语言学规律的基础上,设计古今句子对齐算法获取双语语料,进而提出基于机器翻译的句内片段提取方法从双语语料中提取高质量的句内片段翻译对,特别挖掘注释信息精炼合并为多义注释词典,依据古籍的朝代信息推算出古汉语分期信息,同时吸纳现代文单语语料共同汇聚为外部知识,构建基于外部知识协同的古汉语到现代汉语的机器翻译模型。在信息使用上,①句内片段协同可以在句对齐性能有限的情况下筛选出高质量互译片段,提升神经机器翻译模型的训练效果,同时作为翻译实例用于实例检索,可以给用户更优质的翻译体验。②注释信息协同提炼古文词汇的精准注释,采用直接替换、混合标签、拼接句的外协同方式从外部指导神经机器翻译模型的训练,同时建立序列标签编码和注释信息注意力修正的内协同方法修改Transformer的编码机制,降低了模型学习难度,并提升了模型对词汇翻译的准确性。③语言知识协同根据语言学知识对古文语料进行时期划分,将分期反向翻译模型结合回翻方法构成混合数据,再辅以语料分期的微调模型设计,提升了各时期的古文到现代文的翻译效果;采用两步翻译法实现单语语境优化进一步增加现代文译文的可读性。
  以翻译效果提升为标准对每个协同方法分别进行实验验证,在语料有限的情况下,无论是三种外部知识协同方法的单独使用,还是三维外部知识的联合协同,均有效提升了古文到现代文的机器翻译性能。
其他文献
农业的发展受到农业风险特别是自然风险的严重影响,农业保险作为一项转嫁风险,分摊损失的经济补偿制度,对保证农业生产的持续稳定发展有着十分重要的意义.同时,农业保险高风险、高赔付率的特点又使其成为一世界性的难题,发展缓慢.因此,研究农业保险问题具有的理论和实践意义.
学位
近年来,互联网普及程度迅速加深,电子商务作为推动我国经济社会现代化发展的新动力,进入了发展快车道,在社会经济中的作用日益凸显。在培养和增加劳动力方面,随着电子商务服务业规模的持续扩大,电子商务平台服务业、支撑服务业、衍生服务业等领域从业人员规模激增。2014年我国电子商务领域从业人员为2690万人,而2018年已经快速达到4700万人,随之而来的是其从业人员教育培训服务业规模的迅速扩大。  本文在
科技型企业创新所具有的高成本、高风险的特点,决定了科技型企业成长的复杂性,分析并识别此类企业的成长性,即潜在竞争力成为技术竞争情报领域一个新兴的研究议题。企业提升潜在竞争力是为了在未来获得更强的市场竞争力和高额利润。本文在企业竞争力评价研究基础上,力图识别出牺牲短期利益获取潜在竞争优势的科技型企业的未来财务绩效和市场发展规律,旨在更好的实现对企业未来竞争力的预测。  首先,系统梳理国内外研究文献,
随着科研创新活动综合性和复杂性的提高,单一主体很难掌握全部的创新资源,为了弥补资源差异,实现创新资源的优化配置及优势互补,科研创新合作成为科学研究发展的必然趋势。由于地理位置差异等原因,不同区域对创新资源的掌握程度有所差异,区域间创新合作对分摊创新成本、推动资源流通、提高成果质量具有重要作用。粤港澳大湾区作为我国科技创新发展的高地,对国家乃至全球的科技发展和经济发展起着至关重要的作用,对其创新合作
学位
新能源事关我国能源绿色低碳转型、应对气候变化及生态文明建设的成败。当前各国都积极部署并研究新能源,抢占新能源技术创新的制高点。研究新能源企业技术创新能力,对于加快我国低碳转型、有效应对气候变化和推动生态文明建设具有重要的理论与现实意义。  本文在文献调研的基础上,初步构建了涵盖专利积累、专利价值、专利潜力和研发稳定性的专利指标评价框架,并以光伏企业为例,依托德温特创新索引数据库,制定检索策略,获取
湾区是带动全球经济发展的重要增长极和技术革新的主要发源地。目前世界知名的湾区主要有旧金山湾区、纽约湾区和东京湾区。我国于2019年发布《粤港澳大湾区发展规划纲要》,将粤港澳大湾区的建设上升到国家战略,也为“一国两制”提供新的实践参考。本文以纽约湾区、旧金山湾区、东京湾区和粤港澳大湾区作为研究对象,测算四个湾区的创新绩效,并进行对比分析,借鉴世界三大湾区的科技创新规划和资源配置经验,以提高粤港澳大湾
学位
科技资源是科技创新的重要物质基础,充分有效地利用各类科技资源对于提升研发水平,增强科技创新能力有着重大作用。当前我国科技资源服务取得了一定的成效,但仍然存在着服务方式单一、服务不便利等问题,不利于科技资源的利用。本文通过对分布式科技资源服务模式的研究,旨在促进科技资源服务效率的提高,使服务更加便利。  全文分为七部分。第一部分介绍了本研究的研究背景、研究意义和研究思路;第二部分介绍了科技资源服务的
学位
2018年科技部等五部门发文展开清理“唯论文”、“唯职称”、“唯学历”、“唯奖项”专项行动,“四唯”问题成为科学界普遍关心的问题。本研究主要从多样性视角出发,对科技计划项目产出的状态和特征进行分析,尝试为进一步明确科学的科技计划产出体系目标,提升产出质量和效益,为未来的科技计划资助产出结构调整和优化评估方法提供参考,并为优化科技计划布局、提升科技计划项目过程管理水平提供参考。  本文首先对相关研究
基础研究是创新之源、强国之基。随着基础研究在国家发展中占据越来越重要的地位,国家之间的竞争逐渐向前端转移到基础研究领域。基础研究经费投入是基础研究活动的物质保障,基础研究经费投入强度指国家基础研究经费投入与国内生产总值的比值。目前,主要科技创新型国家的基础研究经费投入强度一般在0.3%以上,而中国2018年基础研究经费投入强度为0.12%,相比差距较大。基础研究经费应该投入多少,需要考虑多方面因素
现有文献的分类标引多采用《中图法》。在文献出版量飞速增长的背景下,完全依靠人工进行文献标引已经不可行,通过文本自动分类算法实现机器标引变得非常必要。然而,中图分类体系下存在数据不平衡现象。这影响了现有分类算法的性能,难以达到理想的标引效果。  为改善非平衡数据下分类标引的效果,从数据层面与算法层面相结合的角度提出一种标引方法。在数据层面上,利用LSTM模型为少数类补充样本数据。该方法首先利用类名和
学位