主题可定制的web双语平行语料库自动获取技术研究

来源 :中国科学院计算技术研究所 | 被引量 : 0次 | 上传用户：gang_zai1314

【摘要】

：

大规模双语平行语料库是构建高质量统计机器翻译系统的重要基础资源。在特定领域统计机器翻译应用中，使用与领域主题相关的平行语料作为训练数据能够获得好的翻译质量。本文提

【作者】

：

王建华

【机构】

：

中国科学院计算技术研究所

【出处】

：

中国科学院计算技术研究所

【发表日期】

：

2009年期

【关键词】

：

双语平行语料库网页挖掘主题定制统计机器翻译自动获取

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

大规模双语平行语料库是构建高质量统计机器翻译系统的重要基础资源。在特定领域统计机器翻译应用中，使用与领域主题相关的平行语料作为训练数据能够获得好的翻译质量。本文提出了一种主题可定制的Web双语平行语料库自动获取方法，目的在于充分利用Web中大量存在的双语平行资源，从中获取满足用户特定领域和主题翻译需求的双语平行语料，以提高统计机器翻译系统的翻译质量。　　具体来说，本文研究包括以下几方面内容：　　 1.基于Web的双语平行语料库自动获取　　在互联网上，平行网站的风格千差万别，基于URL命名相似性与基于网页结构相似性的平行句对获取方法在处理不同风格的平行网站时各有优劣，表现出适应能力的互补。本文深入研究了两种方法的特点，对现有技术进行改进，提出了一种基于标签序列最长公共子串的DOM树对齐改进算法。针对两种方法各自的优势，我们设计了融合两种获取方法的策略。实验证明，融合后的方法能够有效提高获取系统适应复杂网站情况的能力。　　 2.主题可定制双语平行语料库自动获取　　对于特定领域的机器翻译应用，使用领域主题相关的语料作为训练数据可以提高统计机器翻译系统的翻译质量。本文借鉴信息检索相关技术，研究并提出了领域主题相关的双语平行语料库自动获取方法，包括主题描述模型和主题相关数据检索方法。实验表明，利用本文提出的方法，用户可以方便地进行领域主题的定制，有效地实现特定领域主题双语语料库的检索；利用该方法检索得到的双语平行语料库来加强领域翻译模型的训练，可以有效地改善特定领域统计机器翻译系统的翻译质量。　　 3.主题可定制的双语平行语料库自动获取系统设计与实现　　在以上研究的基础上，搭建了一个主题可定制的Web双语平行语料库自动获取系统。该系统包括候选网站检索、平行网站识别、获取策略选择等9个功能模块。用户可以利用该系统方便地实现特定领域双语语料库的定制和检索。

其他文献

基于HMM和PNN的混合语音识别模型研究

语音识别是一门集语言学、信号处理、计算机技术于一身的综合性学科。其广阔的应用前景,广泛的应用领域使大量的科学研究人员长期以来一直关注着它,并投入大量精力对其进行研

学位

语音识别语音处理隐马尔可夫模型概率神经网

基于生命周期早期的软件缺陷预测

软件已经成为影响国民经济、军事、政治乃至社会生活的重要因素。软件的缺陷是导致相关系统出错、失效、崩溃甚至机毁人亡的潜在根源。软件缺陷预测是保证软件可靠性和软件质

学位

网络攻击行为与效果展现研究和实现

网络安全保障问题是信息化发展过程和使用中必须要面对的问题，网络的开放性与安全性是反比例的关系，在这种情况下，人们都在寻求能够找到防御攻击的方法。但是，当前攻击与防范作为

学位

攻击分类效果展现参数提取分类法网络安全

针对Storm应用的自动调优框架

由于信息技术的高速发展，各种网络应用、物联网传感器产生的数据量爆炸式增长，在线的实时处理应用场景日渐增多，流式计算逐渐在大数据处理的领域占据一席之地。目前已有的许多开

学位

事件处理器自动调优框架迭代次数性能评价

规则与行为的网络入侵检测模型研究

随着计算机网络技术的发展和广泛应用,网络安全问题随之而来。如何能快速、准确、有效地识别己有的攻击和日益增多的新的攻击,已经成为网络安全研究的热点问题。论文针对现有

学位

入侵检测入侵检测模型协议分析技术遗传算法神经网络遗传神经网络

机群文件系统元数据高可用技术研究

由于在可扩展性、可用性以及性价比方面的显著优势，机群系统已成为高性能计算机和超级服务器的主流结构。作为机群系统的核心软件，机群文件系统负责机群环境下文件的保存、获取

学位

机群文件系统元数据处理程序设计高可用技术

WSN中适应链路特性的数据转发方法研究

无线传感器网络(WSN)是一种新兴的多学科交叉的热点研究领域。WSN网络部署环境的复杂性和节点部署的随机性使得网络中的无线链路收发特性呈现时间演进中的动态性、空间分布上

学位

无线传感器网络数据转发策略链路时空特征链路估计能量效率

SSL协议在网络通信中的研究与应用

安全套接层协议(SSL)是应用于Intenet上的一个安全通信协议。它的主要目的是在两个实体之间建立安全连接，提供可信赖的网络服务。该协议采用了多种加密算法，具备了信息加密、完

学位

网络安全SSL协议安全套接层协议信息加密完整性检验数字签名

基于流程工厂特征的快速碰撞检测算法研究与实现

制造业是我国国民经济的支柱产业，流程工厂作为制造业的重要组成部分，对社会经济发展具有十分关键的作用。随着CAD技术、协同计算技术的发展以及工厂规模的不断扩大，业界对流程

学位

流程工厂协同设计碰撞检测算法

动态电源管理在系统软件层的研究与实现

随着嵌入式系统性能的不断提高，越来越多的系统设计面临着高性能和低能耗所带来的矛盾，低功耗设计是解决这一矛盾的必然要求。动态电源管理（Dynamic Power Management，DPM）是实现

学位

系统软件层系统软件层动态电源管理动态电源管理半马尔可夫决策过程半马尔可夫决策过程Linux系统Linux系统

主题可定制的web双语平行语料库自动获取技术研究

其他学术论文