统计机器翻译预处理若干技术研究

来源 :中国科学院计算技术研究所 | 被引量 : 0次 | 上传用户:m237912904
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
大规模的双语句子对齐语料库及双语词典等数据资源是构建高质量统计机器翻译系统的重要数据基础.本文提出了若干统计机器翻译预处理中数据资源的使用策略,目的在于尽可能地挖掘已有资源的潜力,提高统计机器翻译系统的翻译质量,包括以下几方面的内容: 1.基于信息检索模型的统计机器翻译训练数据选择与参数优化方法大规模的双语句子对齐语料库是最常用的统计机器翻译模型的训练数据.与传统的通过扩大语料库规模来提高统计机器翻译质量的策略不同,我们针对不同的应用环境提出了两种基于信息检索模型的统计机器翻译训练数据选择与参数优化方法其中离线数据选择方法选择更相似的数据来训练生成更优化的统计机器翻译模型,在线参数优化方法选择更相似的模型参数组合来生成统计机器翻译模型.实验证明,两种方法均可有效地提高统计机器翻译系统的翻译质量. 2.应用于特定领域统计机器翻译的词典融合策略双语词典是统计机器翻译可利用的重要数据资源,但是缺乏概率信息使得词典的使用一直不是十分充分.与传统的直接将词典加权混入句子对齐的语料库中进行训练的方法相比,我们提出的基于切词和基于特征的词典融合方法,可在一定程度上解决传统方法中词典数据稀疏、概率估计不准确、无法动态添加新词等问题,特别适合于训练语料规模不大的特定领域统计机器翻译.我们将该方法融入一个为专利文献服务的统计机器翻译系统中,有效地提高了机器翻译的质量. 3.基于规则的命名实体翻译模块的设计及实现由于命名实体中新词语较多,单纯依靠统计方法从语料库中获得的翻译知识往往面临较为严重的数据稀疏问题,将基于规则的翻译模块引入命名实体翻译是解决这一问题的有效手段.我们开发了一个通用的基于规则的命名实体翻译模块,可识别并翻译待译文本中的时间词、数词、人名、地名及机构名等多种类型的词条,翻译结果作为候选短语表提供给统计机器翻译的解码器进行选择,可有效解决训练语料库中此类词条的数据稀疏问题,提高机器翻译的质量.
其他文献
随着社会信息化的发展,可供人们掌控的信息量激增,信息资源地位凸显;信息资源共享基础架构研究成为业界研究的热点之一。 信息资源共享离不开数据传输,由于C/S模式本身的局限
数据缓存是提高系统性能的一种有效方法,协同缓存通过一组节点相互共享缓存内容,可以极大提高分布式系统中信息访问的效率。 本文关注如何设计高效的协同缓存管理策略,研究的
访问控制是保护数据机密性和数据完整性的一种机制,随着信息技术的发展,越来越多的企业把保护信息资产的机密性和完整性作为一项重要的工作来抓。访问控制技术的研究由来已久,人
学位
经过三十多年的快速发展和广泛应用,Internet已从传统的简单信息交换网络成长为一种新型的复杂资源共享集成平台。而服务计算以软件服务的形式封装资源,以服务协同来实现资源集
中间件是一种独立的系统软件或服务程序,分布式应用软件借助这种软件在不同的技术之间共享资源。中间件位于客户机服务器的操作系统之上,管理计算资源和网络通信。中间件作为一
随着互联网技术的发展和广泛应用,流动数据管理在各种应用系统中变得越来越重要.和传统的数据库管理系统不同,数据流管理系统以查询为中心,系统中预先注册有成千上万个持续查
自1999年J2EE的第一个版本推出以来,J2EE应用服务器一直是企业级计算的首选平台之一,而EJB则是J2EE的一个核心部分。J2EE/EJB的关注点一直是创建专注业务逻辑的可复用的分布式
学位
图灵机模型假设输入信息已经位于机器纸带之上,可以被转移函数直接获取;然而对于三元计算,信息不仅仅存在于数字空间,还广泛存在于物理世界和人类社会。因此,三元计算的一个重要
语音识别技术经过几十年的艰苦探索和研究,已经获得了极大的发展,并开始逐步应用于日常生活中。但语音识别技术中存在的一些问题,特别是儿童语音识别,成为阻碍该技术进一步推广的