论文部分内容阅读
大规模双语平行语料库是构建高质量统计机器翻译系统的重要基础资源。在特定领域统计机器翻译应用中,使用与领域主题相关的平行语料作为训练数据能够获得好的翻译质量。本文提出了一种主题可定制的Web双语平行语料库自动获取方法,目的在于充分利用Web中大量存在的双语平行资源,从中获取满足用户特定领域和主题翻译需求的双语平行语料,以提高统计机器翻译系统的翻译质量。
具体来说,本文研究包括以下几方面内容:
1.基于Web的双语平行语料库自动获取
在互联网上,平行网站的风格千差万别,基于URL命名相似性与基于网页结构相似性的平行句对获取方法在处理不同风格的平行网站时各有优劣,表现出适应能力的互补。本文深入研究了两种方法的特点,对现有技术进行改进,提出了一种基于标签序列最长公共子串的DOM树对齐改进算法。针对两种方法各自的优势,我们设计了融合两种获取方法的策略。实验证明,融合后的方法能够有效提高获取系统适应复杂网站情况的能力。
2.主题可定制双语平行语料库自动获取
对于特定领域的机器翻译应用,使用领域主题相关的语料作为训练数据可以提高统计机器翻译系统的翻译质量。本文借鉴信息检索相关技术,研究并提出了领域主题相关的双语平行语料库自动获取方法,包括主题描述模型和主题相关数据检索方法。实验表明,利用本文提出的方法,用户可以方便地进行领域主题的定制,有效地实现特定领域主题双语语料库的检索;利用该方法检索得到的双语平行语料库来加强领域翻译模型的训练,可以有效地改善特定领域统计机器翻译系统的翻译质量。
3.主题可定制的双语平行语料库自动获取系统设计与实现
在以上研究的基础上,搭建了一个主题可定制的Web双语平行语料库自动获取系统。该系统包括候选网站检索、平行网站识别、获取策略选择等9个功能模块。用户可以利用该系统方便地实现特定领域双语语料库的定制和检索。