论文部分内容阅读
近年来,随着我国国民经济的不断发展以及Internet的普及,中文信息处理得到越来越广泛的应用。由于历史的原因,当前在计算机产业中,中文信息处理技术是我国的专长,在国际上享有得天独厚的优势。
中文信息处理涵盖了字、词、短语、句子、篇章等多层面的信息加工处理任务。在中文信息处理中,字只是处理的载体,而词才能表示信息,同时,中文文本是按句连写的,词间无间隙,所以在中文文本处理中,首先遇到的问题就是词的切分。
汉语自动分词中,有几个主要问题:词典收词,针对不同的应用选择适当的词加入词库;歧义消除,消除自动分词中有可能产生的切分歧义;未登录词识别,识别词库中未收录词。
本文分析了以上几个问题,研究了当前解决这些问题的策略,在总结其优缺点的基础上提出了一种规则与统计相结合的分词方法,提高了切分正确率,特别在解决交集型歧义方面效果显著。
本论文的主要工作有:1.分析和总结了已有的分词算法,包括基本分词方法、基于规则的分词方法和基于统计的分词方法;阐述了汉语分词原则和分词词典的收词原则与方法;分析了汉语自动分词中歧义产生的原因,讨论了解决交集型歧义和组合型歧义的代表性方法及其各自的特点;对汉语自动分词中可能碰到的未登录词(人名、地名、机构名以及译名),逐个阐述了其识别方法。
2.基于现有分词技术的分析,我们提出了一个规则与统计相结合的面向机器翻译的汉语自动分词策略。
该策略使用的词典为一个面向机器翻译的11万多词的词典,统计使用的语料库包括两个:人民日报1996年和1997年的真实语料、北京大学计算语言学研究所标注了的人民日报1998年上半年的语料。真实语料库用以统计词典中词频,标注语料库用以抽取词类的邻接概值以及人名用字、地名用字和译名用字的出现频率。
该策略通过正向最大匹配和逆向最大匹配相结合的双向匹配方法来发现交集型歧义;利用规则与词频统计相结合的方法来解决交集型歧义:先通过统计的方法来尽可能的解决歧义,然后利用规则来解决统计方法无法处理的歧义;然后针对切分结果中的未登录字串依次进行了人名、地名、译名和机构名称的识别。基于这个策略的实验分词系统能够很好的解决交集型歧义字段的切分,取得了良好的实验效果。
3.在基于所提分词算法的基础之上,又对策略做了一些深入研究,即在解决好交集型歧义的基础上,提出了发现、解决组合型歧义的设想,并对分词结果如何更好的跟应用相结合,特别对如何使本分词策略跟机器翻译的其它模块相结合作了一些探讨,从而使得策略更趋完善。