论文部分内容阅读
医疗术语的翻译对于科技交流十分必要。然而,由于医疗术语数量巨大,并有一定的组合特性,不能完全由字典覆盖。此外,医疗术语的翻译既有领域特性,又有句法特性,具有一定的难度。 症状和疾病是医疗术语的基础,本文以此为起点,提出了基于源端信息的症状和疾病神经机器翻译方法。本文的工作主要分为以下三个部分:第一,为了更好地获得症状和疾病的源端信息,综合考虑症状疾病的构成特点,提出了描述症状和疾病的16种构成元素。通过在机器翻译时分析源语言的构成元素,本文能够很好地捕获症状和疾病的内部结构特征,以改善翻译性能;第二,为获取症状和疾病的构成元素,本文提出了两种症状和疾病的构成分析方法,分别是基于条件随机场模型(CRF)的构成分析方法和基于双向长短期记忆条件随机场模型(Bi-LSTM-CRF)的构成分析方法;第三,为了进一步提高症状和疾病的翻译质量,本文将使用症状和疾病的构成特征以及通过源端信息合成的人工语料加入到原始训练集中,共同训练带注意力机制的神经机器翻译模型。实验结果表明,本文所提出的构成分析的方法能够很好的识别症状和疾病的构成元素。其中基于CRF的症状疾病构成分析方法在症状疾病和构成元素两种统计粒度上的正确率分别达到了90.53%、93.91%。基于Bi-LSTM-CRF的症状疾病构成分析方法在症状疾病和构成元素两种统计粒度上的正确率分别达到了92.77%和94.34%。在加入构成特征和人工语料后,基于症状和疾病源端信息的神经机器翻译方法有效地改善了翻译质量,比基准模型提高了2.01个BLEU值。