基于复述增广的医疗领域机器翻译

来源 :电子与信息学报 | 被引量 : 0次 | 上传用户:aierlansi
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
医疗机器翻译对于跨境医疗、医疗文献翻译等应用具有重要价值.汉英神经机器翻译依靠深度学习强大的建模能力和大规模双语平行数据取得了长足的进步.神经机器翻译通常依赖于大规模的平行句对训练翻译模型.目前,汉英翻译数据主要以新闻、政策等领域数据为主,缺少医疗领域的数据,导致医疗领域的汉英机器翻译效果不佳.针对医疗垂直领域机器翻译训练数据不足的问题,该文提出利用复述生成技术对汉英医疗机器翻译数据进行增广,扩大汉英机器翻译的规模.通过多种主流的神经机器翻译模型的实验结果表明,通过复述生成对数据进行增广可以有效地提升机器翻译的性能,在RNNSearch,Transformer等多个主流模型上均取得了6个点以上的BLEU值提升,验证了复述增广方法对领域机器翻译的有效性.同时,基于MT5等大规模预训练语言模型可以进一步地提升机器翻译的性能.
其他文献
现有多模态分割方法通常先对图像进行配准,再对配准后的图像进行分割.对于成像特点差异较大的不同模态,两阶段的结构匹配与分割算法下的分割精度较低.针对该问题,该文提出一种基于跨模态空间匹配的多模态肺部肿块分割网络(MMSASegNet),其具有模型复杂度低和分割精度高的特点.该模型采用双路残差U型分割网络作为骨干分割网络,以充分提取不同模态输入特征,利用可学习的空间变换网络对其输出的多模态分割掩膜进行空间结构匹配;为实现空间匹配后的多模态特征图融合,形变掩膜和参考掩膜分别与各自模态相同分辨率的特征图进行矩阵相
针对台区线损异常状况分析效率较低,分析结果与实际值相差较大的问题,基于计算管理设计了一种新的台区线损异常状况分析模型.通过数据采集、预处理和数据聚类判定台区线损异常状况,分析数据离散状态,建立数据决策树,通过决策树节点得到台区线损数据处理量,根据预警状态判断台区线损信息.实验结果表明,基于计量管理的台区线损异常状况分析模型能够有效提高分析效率,分析结果与实际值更加吻合.
心冲击图(BCG)信号中含有睡眠时期的心跳等生理参数,采用非接触式测量,但易受干扰影响应用受限;心电图(ECG)信号应用很广,但采用接触式测量,操作不便.为了实现非接触式测量并监测心电信号,该文将无参数尺度空间法(PSA)引入并与经验小波变换(EWT)算法结合,从BCG信号中分解得到心跳分量,结果表明所提分解方法能有效地从BCG信号中最大限度地分解出心跳信号;并在此基础上通过改进的深度卷积生成对抗网络(DCGAN)重构出ECG信号.实验结果表明,该文所提信号重构算法能从心跳分量重构恢复出ECG信号,均方根
残差神经网络(ResNet)是深度学习领域的研究热点,广泛应用于医学图像处理领域.该文对残差神经网络从以下几个方面进行综述:首先,阐述残差神经网络的基本原理和模型结构;然后,从残差单元、残差连接和网络整体结构3方面总结了残差神经网络的改进机制;其次,从与DenseNet,U-Net,Inception结构和注意力机制结合4方面探讨残差神经网络在医学图像处理领域中的广泛应用;最后,讨论ResNet在医学图像处理领域中面临的主要挑战,并对未来的发展方向进行展望.该文系统梳理了残差神经网络的最新研究进展,以及在
针对脑出血CT图像病灶部位的多尺度性导致分割精度较低的问题,该文提出一种基于改进U型神经网络的图像分割模型(AU-Net+).首先,该模型利用U-Net中的编码器对脑出血CT图像特征编码,将提出的残差八度卷积(ROC)块应用到U型神经网络的跳跃连接部分,使不同层次的特征更好地融合;其次,对融合后的特征,分别引入混合注意力机制,用以提高对目标区域的特征提取能力;最后,通过改进Dice损失函数进一步加强模型对脑出血CT图像中小目标区域的特征学习力度.为验证模型的有效性,在脑出血CT图像数据集上进行实验,同U-
眼科中治疗孔源性视网膜脱离(RRD)的玻璃体切割联合硅油填充术中,预测术后硅油乳化情况,并根据其确定术中适宜硅油填充量和最终取出时间是手术成功的关键.然而手术流程中医生无法直接观察眼球内部结构,很难对填充物质进行定量分析,手术完成后亦对硅油乳化状态缺乏可视化认知.该文提出一种基于光滑粒子流体动力学的体积不可压缩多相流体计算框架,结合表面张力模型对眼内环境中硅油和水的耦合进行数值计算;构建以力平衡散体动力学模型为基础的多相流体互溶扩散模拟方法,对硅油乳化过程进行可视量化分析.实验表明,该方法可以稳定模拟强表
在电子病历系统中,为了实现多用户环境下的数据搜索,该文提出一种属性基可搜索加密方案.该文将密文和安全索引存储在医疗云,当用户请求医疗数据时,利用属性基可搜索加密算法进行数据搜索,实现了细粒度访问控制.同时方案引入了密文验证算法,解决了半诚实且好奇的云服务器模型下搜索结果不正确的问题.利用数据去重技术实现了重复数据的消除,减少占用医疗云的存储空间.方案同时实现了访问策略的隐藏,保证了数据用户的隐私安全.安全性分析表明,所提方案能很好地保护用户的隐私以及数据的安全.性能分析表明,该方案具有较好的性能,更加适用
为了对肾透明细胞癌(ccRCC)进行准确核分级以改善肾癌的治疗和预后,该文提出一种新的通道注意力模块sECANet,通过计算特征图中当前通道与临近通道以及当前通道与远距离通道之间的信息交互来获取更多有用的特征.实验中收集了90例患者的肾组织病理图像,进行裁切和增强后采用五折交叉验证法对改进后的网络在Patch级别进行验证.实验结果表明,该文所提出的模型在Patch级别上鉴别ISUP分级的准确率为78.48±3.17%,精确率为79.95±4.37%,召回率为78.43±2.44%,F1分数为78.51±3
舌色是中医(TCM)望诊最关注的诊察特征之一,自动准确的舌色分类是舌诊客观化研究的重要内容.由于不同类别舌色之间的视觉界限存在模糊性以及医生标注者的主观性等,标注的舌象数据中常含有噪声,影响舌色分类模型的训练.为此,该文提出一种有噪声标注情况下的中医舌色分类方法:首先,提出一种两阶段的数据清洗方法,对含有噪声的标注样本进行识别,并进行清洗;其次,设计一种基于通道注意力机制的轻型卷积神经网络,通过增强特征的表达能力,实现舌色的准确分类;最后,提出一种带有噪声样本过滤机制的知识蒸馏策略,该策略中加入了由教师网
针对Linux系统下配置Samba共享服务只能通过用户手动编辑配置文件,且配置项众多、步骤繁琐、上手困难等问题,分析了Samba配置文件的结构和配置项的具体作用,结合重载Samba配置和使配置生效的相关系统指令,通过Python的OS库执行系统命令,设计了基于Python的Samba配置解析算法,解析系统中已存在的Samba配置和生成可用的Samba配置文件,使用Pyside2设计了基于QT的图形化界面展示解析结果、接收用户输入的参数及响应用户操作.实际应用结果表明,该工具实现了Samba服务的图形化配置