【摘 要】
:
大规模双语平行或可比较语料库是构建高质量统计机器翻译系统的重要基础资源。目前大规模双语语料库的建设存在着很大的困难,在规模、时效性和领域平衡性等方面还不能满足处
【机 构】
:
苏州大学江苏省计算机信息处理技术重点实验室
论文部分内容阅读
大规模双语平行或可比较语料库是构建高质量统计机器翻译系统的重要基础资源。目前大规模双语语料库的建设存在着很大的困难,在规模、时效性和领域平衡性等方面还不能满足处理真实文本的需要。本文充分利用维基百科中大量存在的双语平行或可比较资源,研究自动获取的方法并验证其有效性,从而获取满足双语平行或可比较语料。从某个特定的网页中,需要定义一种启发式信息来概括这类多语种平行或可比较文本存在的共同特征,以此作为一个有效的入口,来获取我们关心的资源。维基百科中双语平行或可比较资源是完全存在于两个平行或可比较的单语网页中。本文针对这种资源定义了有效的启发式信息,从而很好地解决了大规模数据的来源问题。网络作者在进行双语平行或可比较网页URL命名时往往具有一定的规律性。本文提出了一种自动发现一个具有URL命名规律性算法,从而从维基百科中找出尽可能多的可信的中英文候选网页配比对。双语平行或可比较的网页文本不同于一般的双语对照文本,其中不仅存在有用的双语对照信息,还存在一定的无关噪音信息等;此外,网页文本中的词汇量也大大超出任何一本双语词典的范围。这些都造成了对双语平行或可比较网页进行句子对齐的难度。本文基于维基百科的网页结构,充分利用双语平行或可比较网页HTML结构相似性这一优点,提出了一种基于标签序列最长公共子串的DOM树对齐改进算法的双语平行或可比较句对的抽取技术,从而取得到了很好的效果。最后,我们实现了上述三个方面的技术,搭建了一个可以在维基百科上自动获取双语平行或可比较语料库的实验平台。
其他文献
职业学校高等数学作为基础课程,开设的现状及现阶段存在的问题,并从教学目标、教学原则、教学内容和考评等方面提些改革的设想和措施。
在水利工程合同履行中,常常遇到索赔事件。这是一种补偿行为,而不是惩罚,是工程承包中经常发生的正常现象。尽管产生索赔的原因很多,但处理索赔均应遵循以合同为依据,重事实,重证据
《语文课程标准》要求1—6年级学生背诵古今优秀诗文160篇(段),7。9年级学生背诵80篇(段),合计240篇(段)。为了促使学生主动学习古诗,笔者经过十余年的实践,摸索出一套“三趣曲”教学法
文章介绍了天地华宇发展历程,对天地华字的现状进行了5C分析(Context/Customer needs/Competitor/Collaboration/Company skill),进而通过4P分析(Product/Price/Place/Promot
实施反思型英语教学,帮助学生培养英语兴趣,改革传统的教学方式,介绍英语国家的生活和文化,创设英语语言环境,可以推动大学英语教学,提高广大学生的英语交际能力.
所谓高效课堂,是指学生在三维目标上能够获得真正的发展,这是课堂高效与否的唯一指标。随着课程改革的不断深入,旨在提高课堂教学效率的“高效教学”已成为广大教师积极追求的目
文言文是语文教学的重头戏,而文言文教学存在着很多问题.面对大多数学生认为文言文"枯燥,乏味,学了无用"这一现象,语文教师理应作出积极的响应.
数学概念是数学知识之本,解题之源,学好它既是基础又是关键。理解掌握概念的过程是学生提高学生能力的重要途径,所以学好数学概念极为重要。对于初中一年级的学生来讲,思维是以形
本文介绍了国内外双语词典释义对等词说的主要代表人物及其观点,分析了对等词说的主要优点,同时,指出了对等词说的不足之处,尤其是两种语言的完全对等极为罕见,在很多情况下,