【摘 要】
:
近年来,基于统计的机器翻译技术快速发展,如何准确快速的评价机器翻译系统之间的性能差异是一个研究的热点问题。通常,基于统计的机器翻译方法利用定义好的自动评价标准,在标准的测试集上计算系统的得分(如BLEU 值、NIST值等),然后根据得分的相对大小来确定系统之间的差异大小。研究发现这种仅依靠得分大小来判断系统差异的方法并不完全可靠,尤其是在系统得分差异较小的情况下,需要进一步利用显著性检验来度量系统
【机 构】
:
东芝(中国)研究开发中心 北京 100600 北京搜狗科技发展有限公司 北京 100084
论文部分内容阅读
近年来,基于统计的机器翻译技术快速发展,如何准确快速的评价机器翻译系统之间的性能差异是一个研究的热点问题。通常,基于统计的机器翻译方法利用定义好的自动评价标准,在标准的测试集上计算系统的得分(如BLEU 值、NIST值等),然后根据得分的相对大小来确定系统之间的差异大小。研究发现这种仅依靠得分大小来判断系统差异的方法并不完全可靠,尤其是在系统得分差异较小的情况下,需要进一步利用显著性检验来度量系统之间的差异是否具有显著性,即推断系统之间的差异是由于随机波动引起的,还是系统间真实的性能差异引起的。显著性检验常用来判断系统之间的性能差异是否来源于系统的性能改善而不是随机误差.用于机器翻译系统的显著性检验通常以句子作为基本的抽样单位,忽略了抽样样本之间的独立性假设,而且用于机器翻译系统的自动评价标准不能对句子进行准确评价,因此引入了额外的随机误差.本文详细分析了影响显著性检验的这一问题,在Clark 方法的基础上,提出了一种以测试集为基本单位的显著性检验方法.实验结果表明,该方法进一步消除了不同抽样方法对显著性检验的影响,获得更稳定的检验结果.
其他文献
本文主要对香港现代中文法律文本日常用语的词汇特色进行了介绍。文章首先介绍了香港的法律与法律语言,指出研究香港中文法律文本的意义至少有三点:对于正确解读法律文本,理解香港的法律文化,具有一定的意义;法律语言成分在语言中相对稳定,所使用的词汇也必然相对稳定,把法律语言中出现的词汇拿来与其他华语区比较,具有较高的可信度,无论对于两岸四地辞书的编纂还是全球华语辞书的编纂,都具有重要的使用、参考价值;对于全
汉语语音教学在对外汉语教学中占有重要地位,语音教学实际效果的好坏,与教材的内容安排不无关系.本文提出一种考察语音教学内容覆盖率的客观评价方法,为教师和学生在教材选择时提供一个决策的参考信息.具体地,通过音位连接的分布情况对教材进行客观评价.本文使用单音子、双音子和三音子三个模型,考察比较两本教材《汉语初级教程》和《汉语会话301句》的音位连接分布情况.结果显示两本教材在单音子、双音子和三音子三个角
本文提出了一个基于区间二型模糊集合的交通流长时预测框架及其实现方法,用于预测未来一天的交通流量数据.该框架分为三个模块:交通流数据预处理模块、二型模糊化模块和交通流数据长时预测模块.本文引入置信区间概念,应用中心极限定理,针对大量实测交通流数据进行处理,较好的描述了交通流数据的随机性和不确定性.其预测的交通流数据结果是由上限预测曲线和下限预测曲线包围的一个区域,给出了交通流预测结果及其变化区间.最
Internet inquiry is playing an increasingly important role as the complement of the traditional medical service system,especially the similar cases recommendation.It can not only save the patients wai
针对高速公路交通特点设计了单向双车道元胞自动机模型,重点考虑车型分类、不同车型车辆构成比例、不同车型车辆期望速度、不同类型驾驶员驾驶同一车型车辆不同期望速度、道路限速值大小、大车靠右行驶规则等高速公路车辆组成和行为、规则特征,并融合高速公路行驶车辆考虑后车压迫下的强制被动换道行为,对车辆的行驶规则进行了进一步的约定,使文中的元胞行为与实际高速公路交通流更加接近.在上述模型的基础上进行元胞自动机仿真
互联网问诊平台中的相似病例推荐系统在发挥着越来越重要的作用,相似病例推荐属于推荐系统应用于在线医疗领域的一大突破.相似病例推荐所涉及的语义相似度的计算作为自然语言理解领域的重要内容,在人工智能以及推荐系统中发挥着重要的作用.在互联网在线问诊中,许多的患者会面临同样的疾病,同一个医生也会面对具有相同病情和症状的患者.因此,当用户提交自己的症状描述时,能够将与该症状描述语义相似的历史病例和医生回答推荐
"意外"(mirativity)范畴,研究"出乎意料"的信息所引起的说话人的情绪反映,它是"感叹"范畴的一个子系统.根据考察,至少对汉语来说,副词化形式(adverbialized form)与感叹语(语气词与叹词)是两种最重要的意外表达形式,它们是开放的类,数量众多,并有很多不同的小类,尤其是前者,似乎不断地有着新的形式加入进去,不断地丰富着意外范畴的库藏形式.其他如特殊的疑问代词、特殊的谓词或
本文首先描述了现代汉语普通话中“不敢”表示道义情态[一许可]的现象,这一现象在前人的研究中常常被忽视。接下来,论证了“不敢2”具有两个区别于其他[一许可]义结构的特点:“不敢2”具有“低正式度”的语体特征;“不敢2”只能用来提出道义要求,而无法用来陈述道义的存在。然后,描写了分化,“不敢”的动力情态和道义情态这两种情态歧义的条件。具体来说,“不敢2”的主语必须包含听话人,“不敢2”无法处于认识情态
有幸出席"第五届海外中国语言学者论坛",借此机会向语言学家请教两个问题.第一个问题是比对现代汉语词语归类结果的工作有没有价值,值不值得做下去?笔者在合作伙伴的支持下,拟全面比对《现代汉语语法信息词典》(电子词典)与《现代汉语词典》(第5版)这两部词典的词语分类体系以及数以万计词语的实际归类结果,本文介绍这项工作的目标、做法和已经取得的数据.第二个问题是笔者提出的将普通话的5个声调重新命名为"高声、
深度神经网络是深度学习技术的代表,是一种模拟人脑的计算模型,已经在人工智能的很多领域取得了突破性的成果.基于神经网络的机器翻译是利用深度神经网络进行源语言到目标语言转换的技术,与传统的统计机器翻译技术有着很大的差别.虽然基于神经网络的机器翻译结构十分简单,但是其达到的翻译效果已经接近或者超过传统的基于短语的机器翻译技术.本文提出了一种基于神经网络的维吾尔语到汉语的机器翻译方法.通过实验证明,在特定