【摘 要】
:
多年来,机器翻译一直是自然语言处理领域最重要和最具挑战性的课题之一。本文基于东北大学与日本富士施乐公司多年的研究,探讨并实现了基于模板的机器翻译方法,并重点研究了
论文部分内容阅读
多年来,机器翻译一直是自然语言处理领域最重要和最具挑战性的课题之一。本文基于东北大学与日本富士施乐公司多年的研究,探讨并实现了基于模板的机器翻译方法,并重点研究了基于模板的翻译方法中译文生成时需要解决的关键技术。最优模板选取和短语翻译是影响模板机器翻译的关键因素,本文通过基于文本-模板直接匹配、模板选优等方法改良了最适模板的选择;同时通过引入词义消歧和冠词选择方法改良了短语翻译的质量,并从整体上改善了机器翻译系统的性能。本文的主要内容包括:(1)针对候选模板的选取,本文提出了基于文本-模板直接匹配的方法。传统方法先利用句法分析器从待译句子中抽取候选模板,然后再计算抽取的模板同模板库中模板的相似度。但目前句法分析器的性能还不能满足实际需求,抽取模板的效果不理想,由此会影响到后续的相似度计算。本文根据候选模板对待译句子直接进行变换,然后利用编辑距离计算两者的相似度,最后利用回溯算法获取两者的映射关系。(2)模板的机器翻译中短语翻译的质量直接影响最终译文的质量,本文构建了独立的短语翻译模块,并将基于短语模板的方法作为短语翻译引擎的一个子模块。词义消歧问题是短语翻译中急需解决的问题,本文尝试了多种词义消歧方法,并将其融入到短语翻译引擎中;同时对英语译文生成时的冠词选择进行了探讨。实验结果表明基于文本-模板直接匹配的方法可以取得令人满意的性能,同时引入的词义消歧和冠词选择方法改善了译文的质量。
其他文献
随着技术的进步和处理器结构的发展,高性能通用微处理器的TLB(TranslationLookasideBuffer)成为系统性能的瓶颈。为加快TLB的访问速度,TLB通常采用全相联结构。全相联的组织模
图像的理解和识别一直都是数字图像处理研究的热点和难点:要实现对图像的理解,最重要的是提取能够准确描述图像的特征。而使用现有方法提取的图像特征进行图像识别时,无论是
随着EAST托卡马克物理实验不断发展,必然会进入到稳态运行过程,在实验过程中,物理实验人员诊断数据,以便对控制系统相应参数进行调整,从而维持等离子体平衡,获得理想的放电结
随着制造工艺的进步,晶体管特征尺寸不断减小,氧化层厚度不断降低。然而,为了维持芯片的高性能,供电电压的下降却较为缓慢。很薄的氧化层和相对较高的供电电压会在晶体管沟道内部
视频图像中的运动目标跟踪作为计算机视觉领域的核心研究课题之一,经过近五十多年的发展得到了广泛而深入的研究。它融合了图像处理、模式识别、人工智能、自动控制等相关领域
随着信息技术的蓬勃发展,计算己渗透到人类生活的方方面面,无处不在的网络、多元化的便携设备为随时随地的移动计算提供了可能。用户希望能随时随地在任意设备上访问早已熟悉
当前云计算在底层的基础设施建设和虚拟化层面取得了很大发展,然而人们对于上层的应用构造还缺少深入的研究,导致云计算的应用价值没有充分地体现。企业或单位现阶段全盘采用云
随着网络技术的不断发展,网络的应用也变得越来越广泛,因此网络设备的数量也随着不断的增多,机房的数量更是急剧增加,机房的安全运行已经成为现代信息安全的重要保障。为了减
移动Ad hoc网络是一种特殊的无线移动网络。网络中所有结点的地位平等,无需设置任何的中心控制结点。网络中的结点不仅具有普通移动终端所需的功能,而且具有报文转发能力。与
为了防止信息泄露,机密信息都是加密后存放在外部介质中的,然而在将机密信息读取到内存之后,应用程序会将机密信息解密出来,在处理这些信息期间,应用程序的运行时内存内容有