论文部分内容阅读
命名实体识别和翻译是文本理解和处理的基础工作,对于信息检索、信息抽取、数据挖掘、机器翻译等自然语言处理应用也起着关键性的作用。随着经济、文化等方面的发展,民族语言处理技术及应用逐渐得到人们的重视。维吾尔语的理解和处理方面,命名实体识别和翻译的研究尚在起步阶段,对它的研究有着重要的意义。本文对维吾尔语中的时间词、数词、人名和地名等命名实体的识别和翻译进行了研究,旨在解决维吾尔语命名实体识别和翻译中的关键问题,并有效应用在维汉机器翻译上。 具体地说,本文主要从以下几个方面进行了研究: 第一,研究了一种基于规则的层叠式维吾尔语时间词、数词的识别和翻译方法。首先调研了维吾尔语时间词、数词的特点,总结出有层次的规则,并分别撰写出不同层次的规则。其次,依靠规则由简单到复杂分别对基本数词、复杂数词和复杂时间词进行层叠式识别,设计开发了实用性工具。最后,本文在对多种特定数词结构设计了汉语数字的转换表达形式。实验表明,该方法可以更准确的识别和翻译维语中的数词、时间词,有效提高了翻译质量。 第二,提出了维吾尔语人名、地名的识别方法。首先,提出一种基于统计语言模型的汉族人名识别方法。然后,研究了使用基于最大熵模型的判别式方法,并将该方法扩展到全部人名和地名的识别工作上,对人名和地名分别采取不同的角色标注,实现了维特比动态解码,开发出了维吾尔语人名、地名识别工具,该工具在人名和地名识别方面取得了很好的效果。 第三,针对维吾尔族人名、汉族人名、地名的翻译方法和应用进行了研究。首先分别提出了结合规则的基于语言模型和层次短语模型的翻译方法,实验表明,该翻译方法在维语中人名、地名翻译上得到了超过75%的准确率。然后,研究了维吾尔语人名、地名识别和翻译结果在维汉机器翻译系统上的应用,将结果以翻译规则形式融入到统计翻译系统中,在不改变统计翻译系统总体流程的条件下,有效提高了维汉机器翻译系统的翻译质量。