论文部分内容阅读
大规模双语语料库的建设与获取存在着很大的困难,虽然各国都投入了大量的人力、物力和财力来加强双语语料库的建设,但现有双语语料库在规模、时效性和领域平衡性等方面还不能满足处理真实文本的需要。这也间接导致了目前的统计机器翻译系统仍然主要处于实验室开发研究阶段,离实际的应用还有一定的距离。本文致力于构建一个基于Web的大规模双语平行语料库自动获取平台。取得主要成果有以下几方面:
1.研究了双语平行资源在互联网上的存在形式并探索了相应的获取方法互联网上虽然存在着海量的多语言文本资源,但任何系统都无法将所有的互联网文本进行处理,从而获取所需的特定双语平行的语料库。因此需要定义一种启发式信息来概括这类多语种平行文本存在的共同特征,以此作为一个有效的入口,来获取关心的Web资源。以往的系统都致力从一些双语网站中获取互为翻译的双语网页对。但是通过观察,发现在Web上双语平行资源不仅存在于两个平行的单语网页中,还存在于双语对照的同一网页中。本文对这两种资源都定义了有效的启发式信息,从而很好地解决了大规模数据的来源问题。
2.提出了基于URL命名相似性的双语候选网页获取算法
网络作者在进行双语平行网页URL命名时往往具有一定的规律性,两个URL之间一般只有与语种相关的部分字符串不相同。以往的系统在这个环节需要预先定义在URL命名中常见的与特定语种相关的前后缀表。本文提出了一种可以自动发现一个具有命名规律性的双语网站中双语平行网页之间命名规律的方法,不再依赖预定义。实验表明,本文的方法不仅可以发现所有常见的URL命名规律,而且还可以找出不同的网页编辑者带个人特色的URL命名规律,从而可以找出尽可能多的可信的中英候选网页对。综合各方面的评估与评价,该方法可以充分挖掘出具有命名相似性的双语网站中存在的双语平行网页,初步解决了双语语料库的获取难题,达到了本文预期的目的。
3.改进了双语平行句对抽取技术
双语平行的网页文本不同于一般的双语对照文本,其中不仅存在有用的双语对照信息,还存在一定的无关信息;此外,网页文本中的词汇量也大大超出任何一本双语词典的范围。这些都造成了对双语平行网页进行句子对齐的难度。以往的系统在这方面研究都是利用双语平行网页在其HTML结构上的相似性,但是很少双语平行网页在HTML结构上是完全一致的,其中的噪声很大。因此,得到的双语平行句对的质量也不尽理想。本文提出了一种双语平行句对的抽取技术,不仅可以利用双语平行网页HTML结构相似性这一优点,而且可以牢牢把握住双语平行句对互为翻译这一本质特征,从而取得到了很好的效果。
最后,实现了上述三个方面的技术,搭建了一个可以持续获取大规模的双语平行语料库的平台。