基于信息检索方法的统计翻译系统训练数据选择与优化

来源 :中文信息学报 | 被引量 : 0次 | 上传用户:jishume
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
双语平行语料库是构造高质量统计机器翻译系统的重要基础。与传统的通过扩大双语平行语料库规模来提高翻译质量的策略不同,本文旨在尽可能地挖掘现有资源的潜力来提高统计机器翻译的性能。文中提出了一种基于信息检索模型的统计机器翻译训练数据选择与优化方法,通过选择现有训练数据资源中与待翻译文本相似的句子组成训练子集,可在不增加计算资源的情况下获得与使用全部数据相当甚至更优的机器翻译结果。通过将选择出的数据子集加入原始训练数据中优化训练数据的分布可进一步提高机器翻译的质量。实验证明,该方法对于有效利用现有数据资源提高统计
其他文献
以大庆油田储层和流体物性为模拟对象,采用注入压力、含水率和采收率等评价指标,对聚合物微球油藏适应性评价方法及调驱机理进行研究。实验结果表明,随着水化时间的延长,微球
该文利用DF与CHI统计量相结合的特征选取方法,针对互联网上对外汉语相关领域的网页进行特征提取,并在此基础上,构建了基于标题与正文相结合的两步式主题相关度判定分类器。基
采用微波灰化和干法灰化处理渣油试样,利用1CP—AES法测定渣油中的金属含量,优化了微波灰化条件及仪器测定条件,考察了两种方法的精密度和准确度,并对实际试样的测定结果进行比较
随着网上购物、电视购物、邮递购物等新型交易方式层出不穷,虚拟化交易增多,侵害消费者权益的行为也迅速增长,受损行为不断增多,消费者对产品信息的了解越来越有限,在这种形