汉英EBMT中实例粒度的研究

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:w_r_c_h
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
基于实例的机器翻译(EBMT)系统在特定领域下可以高效地生成准确的译文,并且翻译知识可以自动获取,系统构建周期短.所以研究基于实例的机器翻译模型对基于语料库的机器翻译方法以及自然语言处理研究具有重要的理论意义和实用价值.汉英EBMT系统对于由双语平行语料库抽取得出的对译片断库有很强的依赖性.我们普遍认为特定领域对译片断库翻译特定领域的文本能取得较好的翻译效果,但是并没有严格的实验来证明该结论,而且现在对于EBMT的研究工作中没有对领域的划分作深入的研究:即从粒度角度看,领域应该多大,增加现有所谓领域粒度大小或者减小现有领域粒度大小,能不能取得更好的翻译质量.随着2008年北京奥运即将来临,EBMT面临多个领域甚至是口语翻译的挑战,能不能针对具体的应用选择最恰当的翻译知识库来获得较好的翻译效果,是EBMT当前研究中一个期待解决的难题.针对以上问题,该文利用863双语语料库研究了翻译知识的粒度问题,引入并改进了现有的文本分类技术,解决了EBMT系统中领域知识库的选择问题,设计并实现了领域自选择的EBMT系统,具体该文从以下几个方面进行了研究:1.翻译实例粒度的研究.利用粒度计算的理论,模式化汉英EBMT系统中的双语语料库.从场景、领域和综合领域这3个由小到大的粒度层次进行了研究.并从实例粒度的另外两个属性:句子长短和实例词对齐程度,研究了EBMT系统的实例库优化问题.2.研究面向2008奥运机器翻译的文本领域识别技术.面向奥运的机器翻译应用中面临对话机器翻译问题,我们利用文本分类技术设计了一个领域识别算法,通过对输入对话的领域识别来选择相应的翻译实例进行翻译.3.设计并实现了自动识别文本领域的EBMT模型.在EBMT原型系统的基础上,嵌入自动领域识别模块.通过实验结果及其分析,验证了该模型的可行性和有效性,并且对于口语机器翻译有显著的效果.
其他文献
大数据技术的发展,为数据资源的开发和利用带来了重要机遇和挑战,人们的各种行为方式和各种言论都以数据的形式被记录下来,因此如何对互联网中存在的群众的各种言论进行数据挖掘
纹理合成是当前计算机图形学、计算机视觉和图像处理领域的研究热点之一。纹理合成大体上可以分为纹理映射(Texture Mapping)、过程纹理合成(Procedural Texture Synthesis)和基
近几年来,Peer-to-Peer(简称P2P)作为一种新型的网络应用模式以其可扩展性、高度容错性等突出优点变得越来越流行.搜索机制作为P2P应用的核心技术,主要解决的问题是在P2P这种
数据挖掘,就是从大规模的数据集中提取潜在的、隐含的、有价值的知识、模式或规则的过程。从大规模的数据集中挖掘的模式一般可以分为五类:关联规则、分类和预测、聚类、演变分
互联网是一个巨大的知识库,互联网中的知识信息具有海量,分布,异构和更新速度快等特点。对互联网知识进行提取和整合,建立领域知识库,能够有效帮助用户更全面更准确地查询和了解相
具有诸多优点的云计算已经成为不可逆转的IT服务趋势,但在发展与应用中面临众多挑战。挑战之一是建立有效的云计算服务安全性的量化评估方法,另外是设计相应的访问控制模型,以满
矢量图元在虚拟现实系统中具有十分重要的意义。矢量图图元主要包括点、线、多边形以及由这三种图元复合构成的复杂图元,虚拟场景下,需要将这些图元分别表示编辑。矢量的编辑表
小波变换理论作为一种新兴的时(空)—频域分析理论,在被用于图像处理时,具有其它信号处理手段不具有的优越性.其中小波理论中的多分辨分析更加符合人类的视觉机制,与计算机视
人耳具有结构稳定丰富、不受面部表情的影响、更容易采集、更容易为人接受、不容易欺骗等优点,因此人耳识别正在成为生物特征识别领域中的又一热点.目前人耳识别正处于起步阶
该文基于VRM L实现了多晶体晶粒三维形貌仿真结果可视化.首先,对凝固组织微观模拟的各种方法进行了探讨,以寻求合理的物理数学模型;其次,将确定性模拟方法和随机性模拟方法相