【摘 要】
:
信息时代,利用互联网查询信息是很多人工作和生活中的重要内容。同时,人们对其他语言信息的需求也不断增长。跨语言信息检索(CLIR)的出现,方便了用户使用自己熟悉的语言检索
论文部分内容阅读
信息时代,利用互联网查询信息是很多人工作和生活中的重要内容。同时,人们对其他语言信息的需求也不断增长。跨语言信息检索(CLIR)的出现,方便了用户使用自己熟悉的语言检索另一种语言的信息。查询翻译是跨语言信息检索中最常用的技术。在查询翻译的CLIR系统中,专有名词、新词、俚语和技术术语等的翻译是影响其系统性能的关键因素。为解决未登录词不足的问题,首先进行模板挖掘,然后采用模板的方法,从百科资源中挖掘大量存在的双语翻译对,有效扩大了词典的规模。模板挖掘中将中英文翻译对模板分为五部分,利用Pat-Array抽取前后缀的最长共有前缀,组合成模板。在查询翻译中,对于提交的查询词,结合了统计和实例的方法进行短语翻译。最后采用Lucene技术,创建中、英文倒排索引,构建了基于查询翻译的中英文跨语言信息检索系统。创新点主要体现在以下两个方面:利用维基百科的领域覆盖率和结构特征,提出了一种从维基百科中挖掘高质量中英文翻译对的模板方法。首先,从语言工具栏中直接抽取翻译对,作为进一步挖掘的启发知识。然后,在维基页面中,自适应挖掘中英翻译对模板。最后,利用挖掘的模板,在页面中抽取其他中英文翻译对。实验结果表明,该方法能有效地挖掘出常见的模板,而且能够挖掘出人不容易发现的模板,评估打分前的正确率即达到76.63%,加入评估后的正确率为90.4%。为提高查询翻译的准确率,对比了基于实例和统计的短语翻译方法。最后结合了两者的结果。在统计短语翻译中加入词法信息,将解码最优解的过程转换成Re-Ranking问题。结果表明,采用混合的方法比单纯的基于实例短语翻译和基于统计短语翻译均有提高。
其他文献
从改进酚醛树脂的配方和合成工艺、合成酚醛树脂时添加催化剂或改性剂、调胶时添加固化剂等几个方面,综合叙述了国内外有关提高酚醛树脂固化速度的研究进展,以期为酚醛树脂的
拓展福建技术市场需要进一步解决七大问题:第一、逐步建立以企业为主体的技术市场;第二、进一步落实现有技术市场的优惠扶持政策;第三、大力培育和发展各类科技中介服务机构;
长期以来,由于受中考指挥棒的影响,人们对义务教育阶段艺术教育的重要性认识不足,使得音乐、美术科在学生和家长心目中,在学校教育工作中,处于次要位置,这严重影响了艺术教师
日本:高度集中型城镇化模式 2011年,日本城镇化率已达91.3%。日本的人口和产业及城镇高度集中在东京、大阪、名古屋三大都市圈。这种高度集中型城镇化模式,加快了日本工业化进程,但
进入二十一世纪以来,随着航天事业的快速发展,遥感卫星的研制和发射数量逐渐增加,数量和质量也有了大幅度的提升。以中国航天遥感技术的进步为基础,中国正在建设由几十颗遥感卫星
胡锦涛总书记在十七大报告中就完善社会管理、维护社会安定明确指出,社会稳定是人民群众的共同心愿,是改革发展的重要前提。妥善处理社会矛盾,需要不断完善信访制度,健全党和
[目的]探明中草药处理下辣椒的贮藏特性,选择适宜的辣椒贮藏方法.[方法]以贵州地方辣椒品种为材料,探讨了3种不同中草药浸提液处理对4个辣椒品种的贮藏效果及其生理生化品质
《方丈记》是日本平安时代末期由鸭长明所著的随笔集,成书于1212年。与清少纳言的《枕草子》、吉田兼好的《徒然草》一同被誉为日本古代“三大随笔”,作为一部流传千古的名作,《
经济建设的飞速发展带动了工业产能的持续提高,同时也增加了工业生产中设备和工艺环节发生火灾的可能性,进而增大了工业建筑火灾的危险性。近年来由此造成的财产损失和人员伤亡
目的:电视胸腔镜辅助的心脏外科手术最先出现于二十世纪九十年代初,发展到现在已经能够进行心脏外科领域里的大部分手术。但此手术径路与常规经胸骨正中切口相比对肺功能的影