基于AdaBoost的两级手写汉字识别系统的设计与实现

来源 :华南理工大学 | 被引量 : 0次 | 上传用户:woshizzh1713
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
AdaBoost算法作为一种强大的统计学习工具已经广泛应用于模式识别的各个领域,例如人脸检测,车牌识别,数字和邮政编码的识别,文字的检测,音乐风格的分类等等。而在汉字识别这个领域,由于类别数大,一级汉字有3755类,直接使用Adaboost算法在存储量和运算速度上的开销巨大,很难设计出实用的系统。 汉字识别主要有两大主要的模块,一是特征的提取,二是分类器的实现。到目前为止,对特征的提取进行了大量的研究,使得汉字的识别率已经达到实用的水平。但这些成熟系统的分类器,主要还是用最简单的距离分类器。在手写体等字体变形较多,相似字较多的集合中这种汉字识别系统的识别率比起印刷体的识别率相对较低,相似字的识别已经成为汉字识别的一个瓶颈。 在这种情况下,本文提出一个新的两级汉字识别系统,主要工作如下: 1.介绍当前汉字识别的现状和本文所使用的汉字样本库和汉字特征提取方法。 2.对本文将要使用到的AdaBoost算法从机器学习和统计学习两个角度进行深入地分析,从数学上解释其在训练集上的错误率迅速收敛的原因。而针对AdaBoost算法在测试集上不容易过拟合这一似乎违反”Ocam"剃刀准则的现象,也从边际的角度进行了深入地分析。从而解释清楚其在相似字集合中能提高识别率的原因。 3.针对汉字识别中相似字识别率低的问题,我们提出两级汉字识别系统的多种实用解决方案,将较复杂而有效的机器学习算法引入汉字识别的分类器设计中。在合适的存储量开销的限制下,有效地提高整体系统的识别性能。我们既使用了简单的树桩分类器,也使用了强大的SVM分类器做为AdaBoost的弱分类器,在相似字的多类的小集合中使用了一对一,一对余,Lattice和AdaBoost.MH各种多类策略。 最后我们分析了实验的结果,并提出未来的展望。
其他文献
下一代网络(Next Generation Network,NGN)是未来电信网络的发展方向,运营商也在2006年完成了电信网汇接局以上核心层的智能化改造,开始了向NGN的过渡。由于NGN向第三方开放
研究背景 严重创伤、全身感染、肝病以及众多的危重疾病在其发生发展过程中都可发生肠源性内毒素血症,大量的内毒素可直接或者通过激活肝组织中的枯否细胞(Kupffer cell,KC)
中间件是位于平台和应用之间的通用服务,具有标准的程序接口和协议,能够屏蔽操作系统和网络协议的差异。网络化靶场是未来实际测试、半实物测试以及虚拟测试的基础,存在多种测试
运动目标跟踪是序列图像分析面向实际的一个最主要的应用研究领域。在计算机软硬件技术、特别是硬件技术的强劲发展支撑下,图像分析由过去的静态发展到现在的动态,由检测识别
近年来随着微电子技术、无线通信和低功耗嵌入式技术的飞速发展,孕育出了具有低功耗、低成本、分布式和自组织等特点的无线传感器网络,带来了信息感知的一场变革。无线传感器
随着计算机技术和通信技术的迅猛发展,计算机安全问题更加突出和复杂,入侵检测技术是目前保证计算机安全的必要手段。基于上述研究背景,本文用数据挖掘中孤立点分析方法的入
在当今的电子电路系统中,模数转换器(ADC)作为连接模拟世界与数字信号处理器(DSP)的桥梁,扮演了重要的角色。Sigma-Delta结构的A/D转换器相比其他结构的转换器,更容易以较低的硬
学位
本文主要致力于以下几个方面的研究和探讨: 1.在分析对象关系数据库的研究思想、技术和方法的基础上,搜集大量经病理确诊的乳腺病变病例,逐步建立起了一个反映东方女性乳腺
室内分布系统是当今无线通信系统重要的组成部分。室内天线性能直接影响室内分布系统的整体表现,设计并采用高性能的室内天线对室内分布系统而言至关重要。 本文致力于设
本文对南丰蜜橘园土壤动物及节肢动物群落的组成、时间格局、多样性及生态位进行了研究。在对南丰县建园20年以上橘园(样点A)、农田改建橘园(样点B)和荒山改建橘园(样点C)的3