论文部分内容阅读
从50年代初机器翻译课题的提出至今,自然语言处理的研发历史至少也有50年了,其间经历了从以通过自省方式学习符号文法和手工编写规则为主要方法的“理性主义”到日益强调以对真实文本数据的统计分析和经验知识归纳为主要方法的“经验主义”。这种趋势还同计算机处理能力不断提高和文本数据积累不断增大密切相关。尊重真实文本语言已成为当前各种信息处理技术的一个基本立场和出发点。
经验主义方法的复兴一方面是由于理性主义方法一直无法摆脱知识瓶颈问题的困扰,但更为重要的是,正如(Armstrong&Warwick1993)指出的,经验主义方法提供了解决自然语言处理中长期存在的问题的方法,这些问题归纳为以下四个方面:(1)语言知识的自动获取。各种相关的语言知识可以自动或半自动的从语料中获取,而不是来自语言专家的人工知识编码。
(2)语言现象的覆盖范围。在给定领域或应用的前提下,能够解释所有的语言现象。
(3)健壮性。对于真实数据中包含的噪音和在一些特定模型下无法解释的现象,仍然能够很好的适应。
(4)可扩展性。可以很容易地将系统移植到新的领域或新的任务中去。
最近几年,机器学习的研究不断的蓬勃发展,原因是多方面的,正如(Dietterich1997)指出的,归于以下两个方面:(1)各种独立的研究团体,包括研究符号机器学习,计算学习理论,神经网络,统计和模式识别的团体开始注意到了对方,并进行了广泛的合作。
(2)机器学习技术应用到很多新的领域,如知识发现,语言处理,机器人控制,组合优化,和一些传统的问题,如语音识别,人脸识别,手写体识别,医疗诊断等。
将机器学习技术和自然语言处理联系起来,是基于这样一个事实,所有的自然语言处理问题都可以被描述成以下两种分类问题之一(Daelemans1995):(1)消歧。给定一组可能的类别和以属性和值表示的上下文信息,判断在该上下文环境下,所属的正确类别。
(2)切分。给定一个目标和上下文信息,判断在该上下文环境下,是否存在目标的边界信息以及哪类边界信息。
当然,复杂的语言处理问题(句法分析)可以通过分解成一系列上述问题。正是基于这样一个事实,本文的工作以文本组块获取作为应用背景,探讨了各种机器学习算法的实现过程以及性能比较。在有指导的学习方法中,分别对统计的方法如HMM,符号的方法如TBL,MBL,Winnow,以及其他的方法如SVM,组合分类器等进行了深入地分析和实践,在半指导的学习方法中,对co-training方法进行了尝试。
首先给出了组块分析体系和形式化定义,并将组块识别问题看成一种分类问题,为应用各种机器学习方法提供了一个学习框架。
在有指导的学习方法中,首先对传统的HMM进行了改进,提出了增益的HMM来构造更为准确的模型。利用转换函数将各种上下文信息导入训练模型中,在提高模型描述能力的同时,保持了与原模型一致的训练和标注过程。实验结果表明,无论汉语还是英语组块识别,新模型均比原模型有很大的提高。
接着探讨了SVM算法实现细节以及性能分析。SVM算法是目前公认的最好的文本分类算法之一。在本文应用各单分类器的组块识别结果中,SVM也取得了最好的结果。在对多项式核函数各个阶次的比较发现,SVM在高维特征空间的确表现了良好的泛化能力,在与增益的HMM比较发现,SVM在小样本统计模式识别方面表现出特有的优势。我们还着重讨论了直推式SVM和多类识别算法。
在此基础上,提出了基于stacking算法的组合分类器模型。组合分类器方法是近几年机器学习领域的一个热点,该方法由于可以取得比单分类器更好的性能而日益受到研究人员的重视。我们构造了两层叠加式框架结构,将SVM,TBL,Winnow,MBL四种分类器进行组合,并与基于voting算法的组合分类器方法进行了比较,基于stacking算法的组合模型无论在准确率还是召回率方面都取得了更好的结果。
我们尝试半指导机器学习方法co-training方法。半指导机器学习方法是有指导和无指导机器学习两者的一个折中办法,它的原则是:在不牺牲性能的前提下,尽量多的使用未带标数据。在具体的组块识别过程中,分别从概率分布信息和上下文特征两个角度构造两个分类器,利用小规模的带标语料,对大规模的未标注语料进行标注。在标注过程中,将标注一致的语料加入到带标语料,并对两个分类器进行反复训练,直到没有新的带标语料产生。
最后,提出了基于词对齐的双语组块对齐算法,利用人工完成的词对齐结果和英语组块识别结果,进行汉语组块识别和双语组块对齐。