主题可定制的web双语平行语料库自动获取技术研究

来源 :中国科学院计算技术研究所 | 被引量 : 0次 | 上传用户:gang_zai1314
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
大规模双语平行语料库是构建高质量统计机器翻译系统的重要基础资源。在特定领域统计机器翻译应用中,使用与领域主题相关的平行语料作为训练数据能够获得好的翻译质量。本文提出了一种主题可定制的Web双语平行语料库自动获取方法,目的在于充分利用Web中大量存在的双语平行资源,从中获取满足用户特定领域和主题翻译需求的双语平行语料,以提高统计机器翻译系统的翻译质量。   具体来说,本文研究包括以下几方面内容:   1.基于Web的双语平行语料库自动获取   在互联网上,平行网站的风格千差万别,基于URL命名相似性与基于网页结构相似性的平行句对获取方法在处理不同风格的平行网站时各有优劣,表现出适应能力的互补。本文深入研究了两种方法的特点,对现有技术进行改进,提出了一种基于标签序列最长公共子串的DOM树对齐改进算法。针对两种方法各自的优势,我们设计了融合两种获取方法的策略。实验证明,融合后的方法能够有效提高获取系统适应复杂网站情况的能力。   2.主题可定制双语平行语料库自动获取   对于特定领域的机器翻译应用,使用领域主题相关的语料作为训练数据可以提高统计机器翻译系统的翻译质量。本文借鉴信息检索相关技术,研究并提出了领域主题相关的双语平行语料库自动获取方法,包括主题描述模型和主题相关数据检索方法。实验表明,利用本文提出的方法,用户可以方便地进行领域主题的定制,有效地实现特定领域主题双语语料库的检索;利用该方法检索得到的双语平行语料库来加强领域翻译模型的训练,可以有效地改善特定领域统计机器翻译系统的翻译质量。   3.主题可定制的双语平行语料库自动获取系统设计与实现   在以上研究的基础上,搭建了一个主题可定制的Web双语平行语料库自动获取系统。该系统包括候选网站检索、平行网站识别、获取策略选择等9个功能模块。用户可以利用该系统方便地实现特定领域双语语料库的定制和检索。
其他文献
语音识别是一门集语言学、信号处理、计算机技术于一身的综合性学科。其广阔的应用前景,广泛的应用领域使大量的科学研究人员长期以来一直关注着它,并投入大量精力对其进行研
软件已经成为影响国民经济、军事、政治乃至社会生活的重要因素。软件的缺陷是导致相关系统出错、失效、崩溃甚至机毁人亡的潜在根源。软件缺陷预测是保证软件可靠性和软件质
学位
网络安全保障问题是信息化发展过程和使用中必须要面对的问题,网络的开放性与安全性是反比例的关系,在这种情况下,人们都在寻求能够找到防御攻击的方法。但是,当前攻击与防范作为
由于信息技术的高速发展,各种网络应用、物联网传感器产生的数据量爆炸式增长,在线的实时处理应用场景日渐增多,流式计算逐渐在大数据处理的领域占据一席之地。目前已有的许多开
随着计算机网络技术的发展和广泛应用,网络安全问题随之而来。如何能快速、准确、有效地识别己有的攻击和日益增多的新的攻击,已经成为网络安全研究的热点问题。论文针对现有
由于在可扩展性、可用性以及性价比方面的显著优势,机群系统已成为高性能计算机和超级服务器的主流结构。作为机群系统的核心软件,机群文件系统负责机群环境下文件的保存、获取
无线传感器网络(WSN)是一种新兴的多学科交叉的热点研究领域。WSN网络部署环境的复杂性和节点部署的随机性使得网络中的无线链路收发特性呈现时间演进中的动态性、空间分布上
安全套接层协议(SSL)是应用于Intenet上的一个安全通信协议。它的主要目的是在两个实体之间建立安全连接,提供可信赖的网络服务。该协议采用了多种加密算法,具备了信息加密、完
制造业是我国国民经济的支柱产业,流程工厂作为制造业的重要组成部分,对社会经济发展具有十分关键的作用。随着CAD技术、协同计算技术的发展以及工厂规模的不断扩大,业界对流程
随着嵌入式系统性能的不断提高,越来越多的系统设计面临着高性能和低能耗所带来的矛盾,低功耗设计是解决这一矛盾的必然要求。动态电源管理(Dynamic Power Management,DPM)是实现