基于Web的大规模双语平行语料库自动获取技术研究与系统实现

来源 :中国科学院计算技术研究所 | 被引量 : 0次 | 上传用户:daxia3301
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
大规模双语语料库的建设与获取存在着很大的困难,虽然各国都投入了大量的人力、物力和财力来加强双语语料库的建设,但现有双语语料库在规模、时效性和领域平衡性等方面还不能满足处理真实文本的需要。这也间接导致了目前的统计机器翻译系统仍然主要处于实验室开发研究阶段,离实际的应用还有一定的距离。本文致力于构建一个基于Web的大规模双语平行语料库自动获取平台。取得主要成果有以下几方面:   1.研究了双语平行资源在互联网上的存在形式并探索了相应的获取方法互联网上虽然存在着海量的多语言文本资源,但任何系统都无法将所有的互联网文本进行处理,从而获取所需的特定双语平行的语料库。因此需要定义一种启发式信息来概括这类多语种平行文本存在的共同特征,以此作为一个有效的入口,来获取关心的Web资源。以往的系统都致力从一些双语网站中获取互为翻译的双语网页对。但是通过观察,发现在Web上双语平行资源不仅存在于两个平行的单语网页中,还存在于双语对照的同一网页中。本文对这两种资源都定义了有效的启发式信息,从而很好地解决了大规模数据的来源问题。   2.提出了基于URL命名相似性的双语候选网页获取算法   网络作者在进行双语平行网页URL命名时往往具有一定的规律性,两个URL之间一般只有与语种相关的部分字符串不相同。以往的系统在这个环节需要预先定义在URL命名中常见的与特定语种相关的前后缀表。本文提出了一种可以自动发现一个具有命名规律性的双语网站中双语平行网页之间命名规律的方法,不再依赖预定义。实验表明,本文的方法不仅可以发现所有常见的URL命名规律,而且还可以找出不同的网页编辑者带个人特色的URL命名规律,从而可以找出尽可能多的可信的中英候选网页对。综合各方面的评估与评价,该方法可以充分挖掘出具有命名相似性的双语网站中存在的双语平行网页,初步解决了双语语料库的获取难题,达到了本文预期的目的。   3.改进了双语平行句对抽取技术   双语平行的网页文本不同于一般的双语对照文本,其中不仅存在有用的双语对照信息,还存在一定的无关信息;此外,网页文本中的词汇量也大大超出任何一本双语词典的范围。这些都造成了对双语平行网页进行句子对齐的难度。以往的系统在这方面研究都是利用双语平行网页在其HTML结构上的相似性,但是很少双语平行网页在HTML结构上是完全一致的,其中的噪声很大。因此,得到的双语平行句对的质量也不尽理想。本文提出了一种双语平行句对的抽取技术,不仅可以利用双语平行网页HTML结构相似性这一优点,而且可以牢牢把握住双语平行句对互为翻译这一本质特征,从而取得到了很好的效果。   最后,实现了上述三个方面的技术,搭建了一个可以持续获取大规模的双语平行语料库的平台。
其他文献
网格计算是一种具有重要创新思想与巨大发展潜力的分支网络计算。它实现了将分布在不同地理位置的异构资源协同工作,以解决科学研究中的复杂问题。任务调度是网格计算中三个
丰富的网络资源和经济快捷的网络访问方式吸引人们聚合分布在广域网内各种软件、Web服务、存储、计算和数据等多样化资源构建高价值的应用,即网格应用。然而,当前缺乏针对网格
由于IP资源的限制,使NAT设备广泛使用。这样就导致P2P应用中面临一个问题:内网后的节点无法直接通信。本文的研究就是致力于解决这个问题。分两个步骤来完成: 首先探讨NAT穿
随着湖北省电子政务系统建设的全面开展,遗留资产的处理与业务集成问题变得越来越突出。在这种情况下,面向服务的体系结构(Service Oriented Architecture,SOA)以其良好的松散藕
边界网关是连接骨干网与社区网的重要设备。近几年来,随着骨干网的大规模建设升级、用户接入以及宽带技术的普及,网络瓶颈逐渐从核心路由器转移到边界网关。一方面,在以太网
教育是关系国家和民族前途命运的大事,和我们每个人都有着极为密切的关系。特别作为教育者,每一名教师更应当关注教育,关注教育改革。作为教师,如何适应课程改革,如何提高教学质量
数控系统的发展趋势对开放式控制器人机交互界面系统HMI提出了越来越高的要求,数控加工过程中的刀具轨迹显示系统已经成为数控HMI系统的重要组成部分,本文以此为背景,研究与
非真实感绘制(Non-Photorealistic Rendeirng,NPR)是近些年来快速发展的一种绘制技术。不同于传统的真实感绘制方法,它主要采用某种艺术风格对物体进行绘制。这种绘制技术完美
AD HOC网络是一种没有基础设施支持的自组无线移动网络,被广泛应用于各种应急场合。在AD HOC网络中,信道带宽非常有限,在数据链路层,多个节点共用一个信道。当前,很多AD HOC
计算机技术几十年的发展历史积累了丰富的软件,其中绝大多数软件都是以二进制的形式存在。处理器的ISA是软件的二进制表示形式,因此与主流的ISA保持兼容是处理器结构设计的首要