维吾尔语命名实体识别和翻译研究

来源 :中国科学院大学 | 被引量 : 0次 | 上传用户:greenosnake
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
命名实体识别和翻译是文本理解和处理的基础工作,对于信息检索、信息抽取、数据挖掘、机器翻译等自然语言处理应用也起着关键性的作用。随着经济、文化等方面的发展,民族语言处理技术及应用逐渐得到人们的重视。维吾尔语的理解和处理方面,命名实体识别和翻译的研究尚在起步阶段,对它的研究有着重要的意义。本文对维吾尔语中的时间词、数词、人名和地名等命名实体的识别和翻译进行了研究,旨在解决维吾尔语命名实体识别和翻译中的关键问题,并有效应用在维汉机器翻译上。  具体地说,本文主要从以下几个方面进行了研究:  第一,研究了一种基于规则的层叠式维吾尔语时间词、数词的识别和翻译方法。首先调研了维吾尔语时间词、数词的特点,总结出有层次的规则,并分别撰写出不同层次的规则。其次,依靠规则由简单到复杂分别对基本数词、复杂数词和复杂时间词进行层叠式识别,设计开发了实用性工具。最后,本文在对多种特定数词结构设计了汉语数字的转换表达形式。实验表明,该方法可以更准确的识别和翻译维语中的数词、时间词,有效提高了翻译质量。  第二,提出了维吾尔语人名、地名的识别方法。首先,提出一种基于统计语言模型的汉族人名识别方法。然后,研究了使用基于最大熵模型的判别式方法,并将该方法扩展到全部人名和地名的识别工作上,对人名和地名分别采取不同的角色标注,实现了维特比动态解码,开发出了维吾尔语人名、地名识别工具,该工具在人名和地名识别方面取得了很好的效果。  第三,针对维吾尔族人名、汉族人名、地名的翻译方法和应用进行了研究。首先分别提出了结合规则的基于语言模型和层次短语模型的翻译方法,实验表明,该翻译方法在维语中人名、地名翻译上得到了超过75%的准确率。然后,研究了维吾尔语人名、地名识别和翻译结果在维汉机器翻译系统上的应用,将结果以翻译规则形式融入到统计翻译系统中,在不改变统计翻译系统总体流程的条件下,有效提高了维汉机器翻译系统的翻译质量。
其他文献
普适计算的核心目标之一是实现信息空间与物理空间的融合。计算将不再限定于传统的桌面计算机和服务器,而是利用各种智能终端进行信息的采集和处理,并通过互联通信,使设备之
学位
现实生活中一旦发生重大公共事件,人们立即被源源不断的来自新闻媒体的相关报道所湮没,无法准确地掌握事件梗概与当前热点。面向事件的时序摘要以特定事件为摘要对象,从在线的时
DNS作为互联网中的一项核心服务,能够提供域名和IP地址映射信息的存储、管理以及响应域名的解析请求。目前,互联网中有大规模的用户,却只有少量的DNS根服务器为用户提供域名
随着我国信息化建设的稳步推进,各部门、各行业都各自积累了数量可观的电子化文本数据。然而,由于行业特点和维护不善等原因,导致现有数据普遍存在着数据分散、存放杂乱、冗余流
学位
学位
伴随着信息化技术的发展,企事业单位迫切需要将现有的各个应用系统集成起来,但是这些已有的系统由于各方面的差异很难直接进行信息的交互,本文选择企业服务总线系统对这些应用系
学位
学位