论文部分内容阅读
AdaBoost算法作为一种强大的统计学习工具已经广泛应用于模式识别的各个领域,例如人脸检测,车牌识别,数字和邮政编码的识别,文字的检测,音乐风格的分类等等。而在汉字识别这个领域,由于类别数大,一级汉字有3755类,直接使用Adaboost算法在存储量和运算速度上的开销巨大,很难设计出实用的系统。
汉字识别主要有两大主要的模块,一是特征的提取,二是分类器的实现。到目前为止,对特征的提取进行了大量的研究,使得汉字的识别率已经达到实用的水平。但这些成熟系统的分类器,主要还是用最简单的距离分类器。在手写体等字体变形较多,相似字较多的集合中这种汉字识别系统的识别率比起印刷体的识别率相对较低,相似字的识别已经成为汉字识别的一个瓶颈。
在这种情况下,本文提出一个新的两级汉字识别系统,主要工作如下:
1.介绍当前汉字识别的现状和本文所使用的汉字样本库和汉字特征提取方法。
2.对本文将要使用到的AdaBoost算法从机器学习和统计学习两个角度进行深入地分析,从数学上解释其在训练集上的错误率迅速收敛的原因。而针对AdaBoost算法在测试集上不容易过拟合这一似乎违反”Ocam"剃刀准则的现象,也从边际的角度进行了深入地分析。从而解释清楚其在相似字集合中能提高识别率的原因。
3.针对汉字识别中相似字识别率低的问题,我们提出两级汉字识别系统的多种实用解决方案,将较复杂而有效的机器学习算法引入汉字识别的分类器设计中。在合适的存储量开销的限制下,有效地提高整体系统的识别性能。我们既使用了简单的树桩分类器,也使用了强大的SVM分类器做为AdaBoost的弱分类器,在相似字的多类的小集合中使用了一对一,一对余,Lattice和AdaBoost.MH各种多类策略。
最后我们分析了实验的结果,并提出未来的展望。