论文部分内容阅读
汉字是历史悠久的中华民族文化的结晶,闪烁着中国人民智慧的光芒。汉字识别是一种难度非常大的模式识别。其中脱机手写汉字识别是目前最为困难也最具挑战性的研究课题。在办公自动化,机器翻译等方面,脱机手写体汉字识别也有着广泛的应用前景。因此对于脱机手写体汉字识别的研究不仅拥有深刻的理论意义,更包含着巨大的实用价值。本文探讨的主要内容是基于小字符集的限制性脱机手写体汉字识别,实验选取国标GB2312-80一级字库中的100类汉字,每类汉字采集108个样本,共10800个汉字样本。涉及的内容如下:首先,本文用专门设计的表格对年龄分布在18~60岁的不同职业、学历和性别的人群的手写体进行样本采集。专用表格使得在满足识别需要的前提下,简化了预处理步骤,提高预处理效率。特征提取是汉字识别过程中的关键环节。本文采用基于弹性网格划分的四方向线索分解特征。其中分别用基于笔画方向法和模糊子笔画提取法来对汉字笔画进行四方向分解,可在一定程度上避免基于轮廓的方法敏感于不同手写汉字笔画宽度与书写变形不足,又能改善基于细化的方法中所导致的模糊笔画以及低分辨率手写汉字笔画信息的丢失。支持向量机是在统计学习理论基础上发展出的一种性能优良的学习机器,其根据有限的样本信息在模型的复杂性和学习能力之间寻求最佳折衷,以求获得最好的推广能力。支持向量机始终存在的一个问题是它的执行效果依赖于参数的设置,其中包括惩罚因子和核函数,但却没有一个合适的理论来指导如何寻找适应于具体的样本数据的参数。本文将改进的自适应遗传算法跟支持向量机相结合,设计了一种自动优选支持向量机模型参数的方法。该方法根据适应度值自动调整交叉概率和变异概率,减少了遗传算法的收敛时间并且提高了遗传算法的精度。将该方法应用于脱机手写汉字的识别,结果表明由该方法所得的SVM具有较好的泛化能力。