基于深度学习的离线手写汉字识别

来源 :湖南大学 | 被引量 : 0次 | 上传用户:yangtt00
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着深度学习技术的快速发展,关于模式识别的许多应用已经获得了相当大的改进。从对象检测和图像生成到重组文章和生成诗歌,应用场景变化很大。文本识别问题也是由深度学习算法完成学习辨别表示的一个很好的例子。
  字符级别的文本识别可分为打印和手写字符识别。自动识别医疗表格和处理其他类型的文件,例如行政,邮政分拣自动化和银行支票识别,都是手写字符识别应用的例子,可以进一步分为离线或在线。
  在这方面,已经研究了超过半个世纪的离线手写汉字识别(HCCR)的问题是特别令人感兴趣的。离线HCCR涉及对孤立手写汉字图像的分析和分类。由于过多的书写变异,大规模词汇(GB2312-80和GB18010-2005标准中的字符类数目分别为6763到70244)以及汉字之间的相似性,HCCR是一个非常重要的问题。
  早期成功的离线HCCR方法主要包括改进的二次判别函数(MDQF)等。近些年来,卷积神经网络(CNN)方法取得有效和显著地进步。值得注意的是,目前一些混合方法,例如那些利用对抗特征学习或基于注意力的递归神经网络(RNN)进行迭代改进预测的方法,似乎是传统CNN解决方案下一个有效的替代方法。
  然而,在这项研究中,本文创建了一种基于纯CNN架构的方法,具有高识别性能,同时牢记其大小和计算成本。所开发模型的一个特点是瓶颈层,它提供了保持其表现力的手段,同时减少了多次累积操作的数量和所需的存储。根据经验证明了所提出的离线HCCR模型中瓶颈层的有效性。本文称之为Melnyk-Net。
  尽管不同的数据增强以及特征手工制作和空间转换技术已成功用于离线HCCR,但本文不会使用这些技术,以便将本文的工作主要集中在寻找仅用于原始手写输入数据的训练的最佳超参数上。
  本文选择深度神经网络方法的原因是它们对大规模分类任务的高识别性能,端到端训练的可用性以及对其改进的持续研究。
  为了训练Melnyk-Net,本文使用了由中国科学院自动化研究所(CASIA)的国家模式识别实验室(NLPR)收集的CASIA-HWDB1.0-1.1数据集,分别由420和300人编写。用于训练本文的网络的整体数据集包含2,678,424个样本,属于3755个不同的字符类别,对应于关键的官方字符集GB2312-80level-1。本文在离线HCCR的最常见基准上评估本文的模型-ICDAR-2013竞赛数据集,包含由60人编写的224,419个样本。
  本文使用反向传播算法训练本文的模型。通过最小化多级负对数似然损失函数(也称为交叉熵)来执行训练。为了实现它,本文使用随机梯度下降(SGD),动量项为0.9用于训练,这是近几年来这方面几乎所有CNN方法的常见选择。利用批量标准化(BN)允许本文选择更高的学习率。为了处理过度拟合,本文在softmax层之前利用了L2正则化随机失活。
  导致CNN缺点的主要原因之一是网络可解释性。就像离线HCCR这样的大规模分类问题而言,这个问题是特别有趣的。在这个领域,诸如小笔画等低级视觉特征和它们的高级结构连接对于进行正确的预测非常重要。该领域的许多先前的工作没有解决网络可解释性的问题。
  为了解决这个问题,本文采用了类激活图(CAM)的知识。本文解释了如何通过它对最相关的汉字部分进行可视化,从而提高网络的可解释性。与之前在离线HCCR环境中完成的网络层输出的可视化不同,利用CAM可以从开始到结束理解全过程。
  受到全局平均池化(GAP)的改进方法——全局加权平均池化(GWAP)的启发,本文提出一个全局加权输出平均池化(GWOAP)。本文将说明如何计算类激活图(CAM),用CNN标识用于识别某个汉字最相关的输入字符图像区域。本文通过实验验证了softmax的偏差对分类精度几乎没有影响,与前人的工作相似,本文在计算CAM时忽略它。之后,本文使用双线性上采样将获得的6×6映射上采样到输入图像大小,并将它们与输入一起绘制以显示其最相关的区域。本文比较了GAP的两种改进方法在离线HCCR竞赛中的表现,并讨论了通过所提出模型对不同汉字图像计算的CAM。
  值得注意的是,最后一个卷积层输出的较小尺寸导致较模糊的CAM,因为本文需要将CAM上采样到输入的大小。通过实验,本文观察到6×6输出特征图和96×96输入图像可以获得模型性能和CAM视觉清晰度之间的良好平衡。在HCCR中,由于没有数值度量,CAM的评估是非常主观的,这与对象定位任务不同。
  在ICDAR-2013离线HCCR竞赛数据集的评估中,本文展示了Melnyk-Net与先前最先进的模型相比具有一系列优势:它可以降低0.83%的相对误差,同时具有相同的计算成本和仅需一半的存储量。这些改进是通过利用带有瓶颈的卷积层和全局平均操作来实现的。尽管Melnyk-Net的深度只有15层并且没有残差连接,但它的性能甚至超过了最近基于ResNet的方法。
  对MNIST和Fashion-MNIST数据集的评估结果表明,即使不进行许多额外的实验和搜索新的超参数,仅对原始数据进行训练的Melnyk-Net也可以成功地用于比离线HCCR规模小得多的分类任务。
  此外,Melnyk-Net能够作为离线HCCR等大规模识别问题中分类错误分析的良好工具。
其他文献
随着我国经济社会的发展和环境资源的压力逐渐加大,节能减排形势非常严峻。在大力推进建筑领域节能工作中,建立一套完善的节能评价体系,据此来检验建筑的节能目标完成情况十分必要。建筑能耗监测管理系统是对建筑消耗的水、电、气、集中供热和集中供冷等各类能耗进行数据采集、综合分析并提供解决方案的能耗监控系统,已被广泛设计在新建建筑及有节能要求的改造项目中。  本文细述了建筑能耗监测与管理系统的架构、数据采集与数
学位
在全球环境问题和能源危机的背景下,国务院针对汽车行业颁布《中国制造2025》,对汽车的油耗提出严格的要求。微混合动力汽车凭借其对传统汽车改动小、成本低、易批量化生产、节能减排等优点具有很好的应用前景和研究价值。本文将对微混合皮带驱动启动发电(Belt-driven Starter Generator BSG)系统中的BSG电机进行磁场设计研究。  本文针对爪极混合励磁BSG电机初始设计方案中气隙磁
学位
自励异步发电机(self-excited inducti on generator,SEIG)具有结构可靠,维护成本低,不存在高温易退磁风险等优点,使得SEIG在海岛、舰船、航空、钻井平台等独立式发电系统中得到了广泛应用。随着国内外风能、水能与海洋能等分布式发电系统的高速发展,SEIG作为新能源发电系统的有机组成部分,其相关稳定性边界与本质机理等问题需要进一步展开分析与研究。  建立有效的自励异步
自21世纪以来,磁性材料在电气工程领域的应用越来越普遍,并且与信息技术、国防技术和国民经济的各个方面密切相关。其中,超微晶合金与传统磁性材料相比,具备更高的饱和磁通密度、更高的磁导率以及更低的高频损耗等特点。超微晶合金因这些良好的电学和磁学性能,在电力设备的应用等方面拥有巨大的潜力。所以,研究它的磁特性有着十分重要的意义。本文对超微晶合金和软磁复合材料进行了一维高频磁特性测量实验,分析了这两种材料
随着时代的发展,人们的生活方式发生了深刻变革。符合社会需求的高铁列车、新能源汽车以及飞轮储能等一系列新时代产物登上了历史舞台,而异步电机在其中扮演了至关重要的角色。异步电机因其结构简单,成本低廉,运行可靠耐用,维修方便等优点,成为应用最广泛的电机。本文从异步电机稳态模型入手,提出一种新的异步电机弱磁控制策略,简化异步电机弱磁控制思路,提高控制精度并针对电机带载能力和效率优化进行深入设计,并依据滑模
菊科紫菀属植物紫菀(Aster tataricus L.)干燥的根和根茎为常用中药材,别名青菀、还魂草等,具有润肺化痰、止咳痰之功效,主治痰多喘咳、新久咳嗽、劳嗽咳血等症。紫菀属化学成分丰富主要为萜类及其苷,其中三萜皂苷是本属主要特征性成分,环肽是该属特色化学成分,至今菊科环肽仅在该种发现。我们对紫菀进行了系统的化学成分研究,从中分离鉴定了19个环肽化合物,其中2个新骨架环肽tataricin A
基于脑-机接口(Brain computer interface, BCI)的稳态视觉诱发电位(Steady state visual evoked potential, SSVEP)在康复医疗、智能车、娱乐、军事和智能家居等领域有着很广泛的应用。上述系统的人机交互效率与被试的分类准确率密切相关,然而被试的个体脑结构差异、疲劳状态等因素均会导致被试的分类准确率降低,从而影响BCI系统的性能。为了提
长江三峡钢丝绳全平衡垂直升船机是保证航道畅通的一个重要的组成部分,该文建立了三峡升船机电力拖动部分的动态数学模型,并根据离散相似原理将数学模型转化为仿真模型:对系统参数进行了整定;用VisualC++编制了仿真程序,对系统的正常工况,事故工况,各种扰动等多种工况进行了仿真,并对结果进行了分析和总结,为三峡升船机电力拖动部分的设计和方案调整提出了自己的观点和看法.该文提出了一种对存在多电机耦合的矢量
学位
马铃薯产量高、种植广泛,是世界第四大粮食作物,在我国农业生产中占有重要地位。作为马铃薯的常见病害,早疫病和晚疫病严重制约了粮食产量的提高,严重影响粮食安全。因此研究马铃薯早疫病和晚疫病的快速准确检测对于实际农业生产有重要的意义。  传统判断农作物病害的方法主要有两种:一种方法是采用知识图谱的方式来判断病害,通过对比病害图谱来判断病害,该类方法的局限性在于准确率低且准确率和经验有关;另一种方法是基于
学位
异构网络中包含丰富的生物信息,包括药物和疾病的特征和药物和疾病之间的连接性等,这些信息可以用于预测药物和疾病之间的关系,因此整合异构网络信息是当前计算药物重定位研究的热点。网络表示学习是将网络中每个节点表示成低维特征,从而提高药物再定位的预测能力。综合这些信息,本文的主要工作如下:  本文提出了一种基于网络表示学习的药物重定位预测方法。从疾病和药物的异构网络中,通过基于跳图的网络表示模型以无监督的