基于源端信息的中文医疗实体神经机器翻译方法研究

来源 :华东理工大学 | 被引量 : 0次 | 上传用户:liu3352
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
医疗术语的翻译对于科技交流十分必要。然而,由于医疗术语数量巨大,并有一定的组合特性,不能完全由字典覆盖。此外,医疗术语的翻译既有领域特性,又有句法特性,具有一定的难度。  症状和疾病是医疗术语的基础,本文以此为起点,提出了基于源端信息的症状和疾病神经机器翻译方法。本文的工作主要分为以下三个部分:第一,为了更好地获得症状和疾病的源端信息,综合考虑症状疾病的构成特点,提出了描述症状和疾病的16种构成元素。通过在机器翻译时分析源语言的构成元素,本文能够很好地捕获症状和疾病的内部结构特征,以改善翻译性能;第二,为获取症状和疾病的构成元素,本文提出了两种症状和疾病的构成分析方法,分别是基于条件随机场模型(CRF)的构成分析方法和基于双向长短期记忆条件随机场模型(Bi-LSTM-CRF)的构成分析方法;第三,为了进一步提高症状和疾病的翻译质量,本文将使用症状和疾病的构成特征以及通过源端信息合成的人工语料加入到原始训练集中,共同训练带注意力机制的神经机器翻译模型。实验结果表明,本文所提出的构成分析的方法能够很好的识别症状和疾病的构成元素。其中基于CRF的症状疾病构成分析方法在症状疾病和构成元素两种统计粒度上的正确率分别达到了90.53%、93.91%。基于Bi-LSTM-CRF的症状疾病构成分析方法在症状疾病和构成元素两种统计粒度上的正确率分别达到了92.77%和94.34%。在加入构成特征和人工语料后,基于症状和疾病源端信息的神经机器翻译方法有效地改善了翻译质量,比基准模型提高了2.01个BLEU值。
其他文献
目前,移动数据库技术的研究与应用是数据库领域和移动计算领域的一个研究热点,伴随着集成电路技术、移动通信技术等领域的发展,移动数据库产品具有巨大的用户需求。 移动数据
数据挖掘技术是当前计算机技术的研究热点之一,关联规则的研究是近几年研究较多的数据挖掘方法,在数据挖掘的各种方法中应用也最为广泛.较低支持度的项集在传统的关联规则挖
联机分析处理(OLAP)是当前数据仓库应用和决策支持系统(DSS)的研究热点.OLAP查询通常需在海量数据上进行即席(ad hoc)的复杂聚集查询,并要求及时向用户提供分析数据,用以辅助
分子对接旨在预测研发许多疾病药物的先导化合物,这在生物信息学的药物设计过程中有着举足轻重的作用。然而,其需要巨大的计算成本。为此,缩短分子对接时间消耗将有效的加速药物
随着网络技术与应用的不断发展,计算机网络在我们的日常生活中已经变得越来越普遍。这些网络的发展使得大到国家经济命脉小到个人日常生活严重依赖于计算机网络,因此网络运行的
电子病历文本中的时间信息,对于标识患者从入院到出院期间不同阶段的病情变化,有着不可替代的作用,因而时间信息抽取在医学领域中受到越来越多的关注。时间实体抽取难点在于:电
RadM造型系统是我们针对虚拟现实场景造型和虚拟角色造型的需要,构造的一个界面简洁友好、操作方便的造型系统。为了使该系统输出的模型能够以更优化的形式提供给大多数的实时
随着互联网的快速发展,信息安全问题显得日益重要。相关网络安全协议应运而生,而它们的基础都是安全高效的加密算法,椭圆曲线加密系统与其他公钥加密系统相比有许多优点,受到国内
该论文从计算机视觉的几何理论出发,针对计算机视觉中的一些热点问题进行了研究.论文的主要研究内容及研究成果如下:●首先对图像匹配问题进行了研究.图像匹配是立体视觉、运
元搜索引擎通常被称为搜索引擎之上的搜索引擎。用户只需递交一次检索请求,由元搜索引擎负责转换处理后提交给多个预先选定的独立搜索引擎,并将所有查询结果集中起来以整体统一