提高资源稀缺语言对之间的统计机器翻译性能

来源 :大连理工大学 | 被引量 : 0次 | 上传用户:shlpsfs
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
半个世纪以来,随着信息和通信技术的发展,针对不同语言的机器翻译系统问世并逐渐流行。但是,由于缺乏相应的研究,奥罗莫语作为奥罗莫族州政府的官方语言,同时也是埃塞俄比亚国乃至非洲的主要语言之一,并没有被这些系统覆盖。因此至今,没有一款机器翻译系统用于翻译奥罗莫语。本文尝试搭建了一个简单的奥罗莫语-英语的机器翻译系统,这在奥罗莫语言史上尚属首次。本论文通过对奥罗莫语进行标注和完善的预处理,表明统计机器翻译系统用于语言资源稀缺的语言对也可以达到较好的结果。文中主要讨论了词汇符号化,词性标注,以及词汇符号化和词性标注对统计机器翻译性能的影响。论文第一部分是词汇符号化。除形态,屈折变化和词序问题,奥罗莫语还有另外一个导致数据稀疏的原因:奥罗莫语中用于表示hudhaa的符号的多样性。Hudhaa是奥罗莫语中变音标记符号。该部分参考文本符号化方法开发了一款针对奥罗莫语言的词汇符号化软件。为此,我们对奥罗莫语中的变音符hudhaa在语言中的拼写做了详尽的分析,然后采用统一的方式标注该符号。变音标记符的统一化降低了数据稀疏程度,并使机器翻译系统更好地对含有变音标记符的句子进行翻译。论文的第二部分内容是词性标注。词性属于语言学范畴。词性标注是指把拥有相似句法特征的词分成一类,比如:名词、形容词、动词、副词等。本文探索了不同的词性标注方法,最后采用最先进的技术——最大熵马尔科夫模型开发了用于奥罗莫语的自动词性标注器。这个模型可以在算法中加入规则作为特征函数,进而取得好的词性标注结果。论文的第三部分探索在基于短语的统计机器翻译系统中结合语言的词性信息以及规则对系统性能的影响。在统计机器翻译中普遍存在数据稀疏问题,因此翻译模型中统计词语对齐的概率是一个难题,即给定语料中大多数词仅出现少数几次。尤其对于像奥罗莫语这样屈折变化丰富的语言,数据稀疏问题更为明显。另外,奥罗莫语中变音标记符的多样性是另一个重要原因。本文通过使用词汇符号化和词性标注标注奥罗莫语来提高奥罗莫英语机器翻译系统的性能。该机器翻译系统所使用的数据集是一个很小的双语平行语料库(通常对正常的统计翻译系统来说是不可取的),同时语料库的翻译质量和拼写正确率也不高。尽管如此,最后的系统BLEU值达到3.11,明显高于基线系统的2.78。系统的翻译结果也从恰当性和流畅性方面进行人工评价。对于这两个方面,分别按最高分五分的评分机制进行评价,本系统的得分分别是3.69和3.59;而基线系统的平均得分仅为3.36和3.39.
其他文献
为了进一步提高中医护理记录书写的质量,体现中医辨证施护的内涵,分析中医护理记录中存在的缺陷,提出了加强护士中医基础理论知识的学习与培训,以控促改,以控促学的对策。
<正>商通贷正在探索更有效的风控模式,利用线上可征信的数据,为小微企业实时授信。宜信的普惠金融之路,是从传统金融逐步向互联网金融和金融科技延伸的。3年前,宜信的大数据
当前,城市化是我国经济社会发展的主旋律,城市化建设在促进国民经济发展中发挥了重要作用.在城市化建设进程中,交通基础设施建设是非常重要的工程.随着社会经济的不断发展,城
在人们对医疗服务需求日益增长和医疗服务供给相对不足的矛盾中,需要通过医保付费机制创新同公立医院改革相结合去充分挖掘医疗要素之活力的方式,才能满足人们的基本医疗需求
创办于1890年的《通报》是国际性权威汉学杂志之一,是法国为汉学界所做的一个重大贡献。本文对早期《通报》(1890—1944年)的创办背景、栏目内容等方面作了简要的介绍,通过分
为探究不同钾肥对花生叶片Dualex值和矿质元素含量以及产量的影响,试验以花生品种豫花14为材料,设置3种不同类型钾肥处理:硫酸钾(T1)、氯化钾(T2)、磷酸二氢钾(T3),以清水为
中国古典园林设计非常重视视觉效果,追求意境之美,设计手法多种多样,其中“叠映”手法是古典园林设计的独到之处,园林的各种景观相互掩映、相映成趣。其视觉效果是从每个视角看,都
建筑工程施工前要做好地质勘探与岩土工程勘察工作,为工程后期的施工进度与施工质量保障体系建设提供依据。本文就对地质勘探与岩土工程勘察工作中存在的问题与对策进行了详细