论文部分内容阅读
半个世纪以来,随着信息和通信技术的发展,针对不同语言的机器翻译系统问世并逐渐流行。但是,由于缺乏相应的研究,奥罗莫语作为奥罗莫族州政府的官方语言,同时也是埃塞俄比亚国乃至非洲的主要语言之一,并没有被这些系统覆盖。因此至今,没有一款机器翻译系统用于翻译奥罗莫语。本文尝试搭建了一个简单的奥罗莫语-英语的机器翻译系统,这在奥罗莫语言史上尚属首次。本论文通过对奥罗莫语进行标注和完善的预处理,表明统计机器翻译系统用于语言资源稀缺的语言对也可以达到较好的结果。文中主要讨论了词汇符号化,词性标注,以及词汇符号化和词性标注对统计机器翻译性能的影响。论文第一部分是词汇符号化。除形态,屈折变化和词序问题,奥罗莫语还有另外一个导致数据稀疏的原因:奥罗莫语中用于表示hudhaa的符号的多样性。Hudhaa是奥罗莫语中变音标记符号。该部分参考文本符号化方法开发了一款针对奥罗莫语言的词汇符号化软件。为此,我们对奥罗莫语中的变音符hudhaa在语言中的拼写做了详尽的分析,然后采用统一的方式标注该符号。变音标记符的统一化降低了数据稀疏程度,并使机器翻译系统更好地对含有变音标记符的句子进行翻译。论文的第二部分内容是词性标注。词性属于语言学范畴。词性标注是指把拥有相似句法特征的词分成一类,比如:名词、形容词、动词、副词等。本文探索了不同的词性标注方法,最后采用最先进的技术——最大熵马尔科夫模型开发了用于奥罗莫语的自动词性标注器。这个模型可以在算法中加入规则作为特征函数,进而取得好的词性标注结果。论文的第三部分探索在基于短语的统计机器翻译系统中结合语言的词性信息以及规则对系统性能的影响。在统计机器翻译中普遍存在数据稀疏问题,因此翻译模型中统计词语对齐的概率是一个难题,即给定语料中大多数词仅出现少数几次。尤其对于像奥罗莫语这样屈折变化丰富的语言,数据稀疏问题更为明显。另外,奥罗莫语中变音标记符的多样性是另一个重要原因。本文通过使用词汇符号化和词性标注标注奥罗莫语来提高奥罗莫英语机器翻译系统的性能。该机器翻译系统所使用的数据集是一个很小的双语平行语料库(通常对正常的统计翻译系统来说是不可取的),同时语料库的翻译质量和拼写正确率也不高。尽管如此,最后的系统BLEU值达到3.11,明显高于基线系统的2.78。系统的翻译结果也从恰当性和流畅性方面进行人工评价。对于这两个方面,分别按最高分五分的评分机制进行评价,本系统的得分分别是3.69和3.59;而基线系统的平均得分仅为3.36和3.39.