论文部分内容阅读
词法学习技术的主要任务是通过机器学习或是其它的一些计算方法,从语料中自动获取某一门语言的词法规则。这些词法规则主要包括单词在不同的语境中产生变化的规律,在自然语言处理系统中有很重要的意义,尤其是在词法处理中有着重要的运用。词法处理是指自然语言处理系统在进行句法分析之前,对句子进行的词汇级的处理,对于英语这类屈折形态变化的语言,词法处理主要任务是对变形单词进行分析,转换成原形单词和附加的词形特征属性。词法处理是自然语言处理中一个重要内容,是进行句法分析、语义分析的基础,在搜索引擎、文本分类、信息抽取、数字图书馆、机器翻译系统等中有广泛的应用。本文主要以英语为例对屈折形态语言的词法处理和词法学习进行了研究。
本文首先对国内外各种词法学习和词法处理技术进行调研,通过对各种词法学习技术的功能进行分析,并集成了双层词法处理系统和不同的词法学习技术模块,提出了一种集成式词法开发平台构建的方法,通过这种集成式词法开发平台可以从一个文本中学习出双层词法规则,从而方便地从这个平台上构建出各种屈折形态语言双层词法处理工具。该平台主要由三个部分组成:双层词法处理模块、词法学习模块和规则生成模块,分别在文章的第二章、第三、四章和第五章详细介绍。最后对集成式词法开发平台各个模块之间的接口存在的一些问题进行了分析。