基于同义词数据增强的汉越神经机器翻译方法

来源 :计算机工程与科学 | 被引量 : 0次 | 上传用户:simon746cn
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
汉越平行语料库的资源稀缺,很大程度上影响了汉越机器翻译效果。数据增强是提升汉越机器翻译的有效途径,基于双语词典的词汇替换数据增强是当前较为流行的方法。由于汉语-越南语属于低资源语言对,双语词典难以获得,而通过单语词向量获取低频词的同义词较为容易。因此,提出一种基于低频词的同义词替换的数据增强方法。该方法利用小规模的平行语料,首先通过对单语词向量的学习,获得一端语言低频词的同义词列表;然后对低频词进行同义词替换,再利用语言模型对替换后的句子进行筛选;最后将筛选后的句子与另一端语言中的句子进行匹配,获得扩展的
其他文献
目标检测是计算机视觉研究领域的核心问题和最具挑战性的问题之一,随着深度学习技术的广泛应用,目标检测的效率和精度逐渐提升,在某些方面已达到甚至超过人眼的分辨水平。但是,由于小目标在图像中覆盖面积小、分辨率低和特征不明显等原因,现有的目标检测方法对小目标的检测效果都不理想,因此也诞生了很多专门针对提升小目标检测效果的方法。在广泛文献调研的基础上,透彻分析小目标检测困难的原因,从多尺度、特征上下文信息、
目的:分析砷铈催化分光光度法检测尿中碘实验过程中的影响因素.方法:运用砷铈催化分光光度法测定尿中碘,分析尿样保存、反应时间的偏离、反应温度的波动及样品浓度等因素对测
目的:探讨阴道分娩产妇分娩恐惧与产程及泌乳启动这三者之间是否具有相关性.方法:2019年12月至2020年2月台州某三甲医院纳入符合标准的孕妇150例,统一使用中文版分娩恐惧量表
针对实际环境噪声下的手机来源识别问题,提出一种基于线性判别分析和时序卷积网络的手机来源识别方法。首先,通过分析不同手机语音特征在实际环境噪声下的分类性能,基于带能量描述符、常数Q变换域和线性判别分析得到一种新的手机语音混合特征。然后,以此混合特征为输入,基于时序卷积网络进行训练和分类。最后,在10个品牌、47种手机型号、32900条语音样本的实际环境噪声语音库上的测试结果显示,所提方法的平均识别准确率达到99.82%。此外,与经典的基于带能量描述符和支持向量机的方法,以及基于常数Q变换域和卷积神经网络的方
平面图像由于缺少深度信息从而难以从中获取人体的三维尺寸信息,传统线性回归方法拟合的尺寸信息为该人体所属阈值区间的均值,由于忽视了人体自身的异构性,导致拟合的尺寸误差较大。采用模型重建的方法,可以提高尺寸获取的精度。但是,利用深度神经网络的方法由于计算量与参数规模较大,难以部署到移动终端中。因此,提出了基于改进GA-BP-MC神经网络的人体三维尺寸预测模型UGA-BP-MC,通过改进自适应交叉、变异
语义分割算法能够对图像进行像素级的分类,广泛应用于无人驾驶、医学图像处理和工业自动化等领域,具有重要研究价值。对语义分割算法的研究集中在提升分割精度、降低参数量和增加推理速度3个方面。经典的轻量语义分割算法ENet使用多层卷积的编解码器和大量的空洞卷积来避免过多的下采样和利用空间信息,虽能保证一定的空间信息完整性与较大的感受野,但存在编解码器臃肿、空间信息传递性差、感受野溢出并造成网格效应等问题。
目的:探讨MRI联合血清HE4、CA125检测在子宫内膜癌诊断中的应用效果.方法:选取200例2017年1月至2018年12月来我院就诊经过病理切片甚至为子宫内膜癌的60例患者作为研究组,55
如今大部分地区的路灯系统还处在传统控制方式、现场人工巡检、传统电路故障排查、没有统一管理平台等阶段,从而造成了巨大的能源浪费。针对以上现状,设计了一种基于LoRa和STM32的路灯自动监控系统。系统以STM32系列的MCU为核心处理器,通过4G通信网络实现路灯与后台服务器之间的数据传输,采用LoRa级联组网方式,设计有蓝牙接口,方便用户现场维护及参数设置。系统主要功能有路灯状态实时监测与控制、实时智能调光、地理位置检测、环境信息数据采集、故障信息实时检测与报警、电量信息实时检测与预警等。实验结果表明,该系
心血管系统疾病是当今严重威胁人类健康的常见的重要疾病.病理性氧化还原机制,尤其是活性氧(ROS)的形成和炎症过程是细胞坏死和凋亡的诱导和调节机制.在心血管系统疾病的发病
期刊
带时间窗和容量约束的车辆路径问题是车辆路径问题重要的扩展之一,属于NP难题,精确算法的求解效率较低,且对于较大规模问题难以在有限时间内给出最优解。为了满足企业和客户快速有效的配送需求,使用智能优化算法可以在有限的时间内给出相对较优解。研究了求解带容量和时间窗约束车辆路径问题的改进离散蝙蝠算法,为增加扰动机制,提高搜索速度和精度,在对客户点按其所在位置进行聚类的基础上,在算法中引入了变步长搜索策略和两元素优化方法进行局部搜索。仿真实验结果表明,所设计算法具有较高寻优能力和较强的实用价值。