论文部分内容阅读
伴随着机器翻译的不断发展,机器翻译评价技术也在不断发展中。最早出现的机器翻译评价方法是人工评价,人工评价方法的优点是能够得到准确的结果,但是也存在很严重的缺点。比如,采用人工评价方式需要耗费大量的人力和时间,并且评价结果不能在机器翻译研究开发过程中频繁使用。另一个问题是人工评价具有主观性,导致评价结果的一致性较差,比如,对于同一个句子,不同的评价人员可能给出不同的评价结果。人工评价方法的缺点限制了机器翻译的发展,而自动评价方法能够避免人工评价方法的缺点,速度快,成本低,对机器翻译的发展起到了很大的促进作用,已成为机器翻译发展的关键因素。目前,主流的机器翻译自动评价方法大都是通过比较机器译文和参考译文之间的相似度,来评价机器译文的翻译质量,这些方法还存在一些缺点。基于词汇的评价方法由于受到N-gram的限制,不能捕捉长度大于N的匹配子串。基于句法的评价方法需要对可能存在翻译错误的机器译文做句法分析,受限于句法分析的准确度。另一个问题是,这类评价方法中用到的子结构需要人工定义,并且不能表达出句法树中全部的信息,有一部分信息还会被重复计算。针对现有自动评价方法存在的这几个问题,我们提出了三种新的自动评价方法。 由于目前基于词汇的评价方法大都是基于N-gram的,这限定了机器译文和参考译文中可获取到的匹配子串的长度最长为N,大于N的匹配子串则不能捕捉。本文根据这个问题提出了基于译文完整性的评价方法,该方法根据机器译文中匹配上的词汇的分布情况计算其熵值,熵越大,说明匹配上的词汇在整个机器译文中的分布越分散。相反的,熵越小,说明匹配上的词汇在整个机器译文中的分布越集中。越集中的分布对应的译文越完整,流利性也越好。一个好的评价方法既要考虑译文的流利度,又要考虑忠实度,因此该方法中还加入了一元的F值用以捕捉对忠实度的评价。实验证明,该方法在目标端为英语和其他语言的语言对上都得到了较好的相关性。 基于词汇的评价方法主要考虑机器译文和参考译文在词汇片段上的相似性,忽略了对句法层面的评价。基于句法的评价方法引入了句法信息,但是他们大都使用机器译文和参考译文两端的句法树,而机器译文端潜在的翻译错误会导致句法分析的正确率降低,从而限制了句法信息作用的发挥。本文根据这个问题提出了基于依存相似度的评价方法。这种评价方法只对参考译文进行依存分析,使用参考译文的依存树和机器译文的串来计算相似度。实验证明,此方法在目标端为英语和其他语言的语言对上都得到了较好的相关性。 目前基于句法的评价方法需要人工在参考译文或机器译文的句法树中定义一些子结构,通过对比抽取的子结构的相似度来判断机器译文的质量。这些子结构一般会有长度限制,不能表达出句法树中全部的信息。另外,有一部分信息还会被重复计算,例如在一个节点同时支配几个子节点的情况下。为了避免这些问题,我们提出了一种基于依存分析模型的评价方法,该方法不需要人工定义子结构,而是由参考译文的依存树来训练依存分析模型,再使用该模型对机器译文进行依存分析,得到依存分析模型的分数,根据该分数就可以判断机器译文句子结构的正确性。为了同时捕捉词汇的相似度,该方法还加入了对一元F值的评价。实验表明,基于依存分析模型的评价方法在与人工评价的相关性上达到了较高的水平。