论文部分内容阅读
大规模的双语句子对齐语料库及双语词典等数据资源是构建高质量统计机器翻译系统的重要数据基础.本文提出了若干统计机器翻译预处理中数据资源的使用策略,目的在于尽可能地挖掘已有资源的潜力,提高统计机器翻译系统的翻译质量,包括以下几方面的内容:
1.基于信息检索模型的统计机器翻译训练数据选择与参数优化方法大规模的双语句子对齐语料库是最常用的统计机器翻译模型的训练数据.与传统的通过扩大语料库规模来提高统计机器翻译质量的策略不同,我们针对不同的应用环境提出了两种基于信息检索模型的统计机器翻译训练数据选择与参数优化方法其中离线数据选择方法选择更相似的数据来训练生成更优化的统计机器翻译模型,在线参数优化方法选择更相似的模型参数组合来生成统计机器翻译模型.实验证明,两种方法均可有效地提高统计机器翻译系统的翻译质量.
2.应用于特定领域统计机器翻译的词典融合策略双语词典是统计机器翻译可利用的重要数据资源,但是缺乏概率信息使得词典的使用一直不是十分充分.与传统的直接将词典加权混入句子对齐的语料库中进行训练的方法相比,我们提出的基于切词和基于特征的词典融合方法,可在一定程度上解决传统方法中词典数据稀疏、概率估计不准确、无法动态添加新词等问题,特别适合于训练语料规模不大的特定领域统计机器翻译.我们将该方法融入一个为专利文献服务的统计机器翻译系统中,有效地提高了机器翻译的质量.
3.基于规则的命名实体翻译模块的设计及实现由于命名实体中新词语较多,单纯依靠统计方法从语料库中获得的翻译知识往往面临较为严重的数据稀疏问题,将基于规则的翻译模块引入命名实体翻译是解决这一问题的有效手段.我们开发了一个通用的基于规则的命名实体翻译模块,可识别并翻译待译文本中的时间词、数词、人名、地名及机构名等多种类型的词条,翻译结果作为候选短语表提供给统计机器翻译的解码器进行选择,可有效解决训练语料库中此类词条的数据稀疏问题,提高机器翻译的质量.