论文部分内容阅读
基于实例的机器翻译(EBMT)系统在特定领域下可以高效地生成准确的译文,并且翻译知识可以自动获取,系统构建周期短.所以研究基于实例的机器翻译模型对基于语料库的机器翻译方法以及自然语言处理研究具有重要的理论意义和实用价值.汉英EBMT系统对于由双语平行语料库抽取得出的对译片断库有很强的依赖性.我们普遍认为特定领域对译片断库翻译特定领域的文本能取得较好的翻译效果,但是并没有严格的实验来证明该结论,而且现在对于EBMT的研究工作中没有对领域的划分作深入的研究:即从粒度角度看,领域应该多大,增加现有所谓领域粒度大小或者减小现有领域粒度大小,能不能取得更好的翻译质量.随着2008年北京奥运即将来临,EBMT面临多个领域甚至是口语翻译的挑战,能不能针对具体的应用选择最恰当的翻译知识库来获得较好的翻译效果,是EBMT当前研究中一个期待解决的难题.针对以上问题,该文利用863双语语料库研究了翻译知识的粒度问题,引入并改进了现有的文本分类技术,解决了EBMT系统中领域知识库的选择问题,设计并实现了领域自选择的EBMT系统,具体该文从以下几个方面进行了研究:1.翻译实例粒度的研究.利用粒度计算的理论,模式化汉英EBMT系统中的双语语料库.从场景、领域和综合领域这3个由小到大的粒度层次进行了研究.并从实例粒度的另外两个属性:句子长短和实例词对齐程度,研究了EBMT系统的实例库优化问题.2.研究面向2008奥运机器翻译的文本领域识别技术.面向奥运的机器翻译应用中面临对话机器翻译问题,我们利用文本分类技术设计了一个领域识别算法,通过对输入对话的领域识别来选择相应的翻译实例进行翻译.3.设计并实现了自动识别文本领域的EBMT模型.在EBMT原型系统的基础上,嵌入自动领域识别模块.通过实验结果及其分析,验证了该模型的可行性和有效性,并且对于口语机器翻译有显著的效果.