论文部分内容阅读
随着深度学习技术的快速发展,关于模式识别的许多应用已经获得了相当大的改进。从对象检测和图像生成到重组文章和生成诗歌,应用场景变化很大。文本识别问题也是由深度学习算法完成学习辨别表示的一个很好的例子。
字符级别的文本识别可分为打印和手写字符识别。自动识别医疗表格和处理其他类型的文件,例如行政,邮政分拣自动化和银行支票识别,都是手写字符识别应用的例子,可以进一步分为离线或在线。
在这方面,已经研究了超过半个世纪的离线手写汉字识别(HCCR)的问题是特别令人感兴趣的。离线HCCR涉及对孤立手写汉字图像的分析和分类。由于过多的书写变异,大规模词汇(GB2312-80和GB18010-2005标准中的字符类数目分别为6763到70244)以及汉字之间的相似性,HCCR是一个非常重要的问题。
早期成功的离线HCCR方法主要包括改进的二次判别函数(MDQF)等。近些年来,卷积神经网络(CNN)方法取得有效和显著地进步。值得注意的是,目前一些混合方法,例如那些利用对抗特征学习或基于注意力的递归神经网络(RNN)进行迭代改进预测的方法,似乎是传统CNN解决方案下一个有效的替代方法。
然而,在这项研究中,本文创建了一种基于纯CNN架构的方法,具有高识别性能,同时牢记其大小和计算成本。所开发模型的一个特点是瓶颈层,它提供了保持其表现力的手段,同时减少了多次累积操作的数量和所需的存储。根据经验证明了所提出的离线HCCR模型中瓶颈层的有效性。本文称之为Melnyk-Net。
尽管不同的数据增强以及特征手工制作和空间转换技术已成功用于离线HCCR,但本文不会使用这些技术,以便将本文的工作主要集中在寻找仅用于原始手写输入数据的训练的最佳超参数上。
本文选择深度神经网络方法的原因是它们对大规模分类任务的高识别性能,端到端训练的可用性以及对其改进的持续研究。
为了训练Melnyk-Net,本文使用了由中国科学院自动化研究所(CASIA)的国家模式识别实验室(NLPR)收集的CASIA-HWDB1.0-1.1数据集,分别由420和300人编写。用于训练本文的网络的整体数据集包含2,678,424个样本,属于3755个不同的字符类别,对应于关键的官方字符集GB2312-80level-1。本文在离线HCCR的最常见基准上评估本文的模型-ICDAR-2013竞赛数据集,包含由60人编写的224,419个样本。
本文使用反向传播算法训练本文的模型。通过最小化多级负对数似然损失函数(也称为交叉熵)来执行训练。为了实现它,本文使用随机梯度下降(SGD),动量项为0.9用于训练,这是近几年来这方面几乎所有CNN方法的常见选择。利用批量标准化(BN)允许本文选择更高的学习率。为了处理过度拟合,本文在softmax层之前利用了L2正则化随机失活。
导致CNN缺点的主要原因之一是网络可解释性。就像离线HCCR这样的大规模分类问题而言,这个问题是特别有趣的。在这个领域,诸如小笔画等低级视觉特征和它们的高级结构连接对于进行正确的预测非常重要。该领域的许多先前的工作没有解决网络可解释性的问题。
为了解决这个问题,本文采用了类激活图(CAM)的知识。本文解释了如何通过它对最相关的汉字部分进行可视化,从而提高网络的可解释性。与之前在离线HCCR环境中完成的网络层输出的可视化不同,利用CAM可以从开始到结束理解全过程。
受到全局平均池化(GAP)的改进方法——全局加权平均池化(GWAP)的启发,本文提出一个全局加权输出平均池化(GWOAP)。本文将说明如何计算类激活图(CAM),用CNN标识用于识别某个汉字最相关的输入字符图像区域。本文通过实验验证了softmax的偏差对分类精度几乎没有影响,与前人的工作相似,本文在计算CAM时忽略它。之后,本文使用双线性上采样将获得的6×6映射上采样到输入图像大小,并将它们与输入一起绘制以显示其最相关的区域。本文比较了GAP的两种改进方法在离线HCCR竞赛中的表现,并讨论了通过所提出模型对不同汉字图像计算的CAM。
值得注意的是,最后一个卷积层输出的较小尺寸导致较模糊的CAM,因为本文需要将CAM上采样到输入的大小。通过实验,本文观察到6×6输出特征图和96×96输入图像可以获得模型性能和CAM视觉清晰度之间的良好平衡。在HCCR中,由于没有数值度量,CAM的评估是非常主观的,这与对象定位任务不同。
在ICDAR-2013离线HCCR竞赛数据集的评估中,本文展示了Melnyk-Net与先前最先进的模型相比具有一系列优势:它可以降低0.83%的相对误差,同时具有相同的计算成本和仅需一半的存储量。这些改进是通过利用带有瓶颈的卷积层和全局平均操作来实现的。尽管Melnyk-Net的深度只有15层并且没有残差连接,但它的性能甚至超过了最近基于ResNet的方法。
对MNIST和Fashion-MNIST数据集的评估结果表明,即使不进行许多额外的实验和搜索新的超参数,仅对原始数据进行训练的Melnyk-Net也可以成功地用于比离线HCCR规模小得多的分类任务。
此外,Melnyk-Net能够作为离线HCCR等大规模识别问题中分类错误分析的良好工具。
字符级别的文本识别可分为打印和手写字符识别。自动识别医疗表格和处理其他类型的文件,例如行政,邮政分拣自动化和银行支票识别,都是手写字符识别应用的例子,可以进一步分为离线或在线。
在这方面,已经研究了超过半个世纪的离线手写汉字识别(HCCR)的问题是特别令人感兴趣的。离线HCCR涉及对孤立手写汉字图像的分析和分类。由于过多的书写变异,大规模词汇(GB2312-80和GB18010-2005标准中的字符类数目分别为6763到70244)以及汉字之间的相似性,HCCR是一个非常重要的问题。
早期成功的离线HCCR方法主要包括改进的二次判别函数(MDQF)等。近些年来,卷积神经网络(CNN)方法取得有效和显著地进步。值得注意的是,目前一些混合方法,例如那些利用对抗特征学习或基于注意力的递归神经网络(RNN)进行迭代改进预测的方法,似乎是传统CNN解决方案下一个有效的替代方法。
然而,在这项研究中,本文创建了一种基于纯CNN架构的方法,具有高识别性能,同时牢记其大小和计算成本。所开发模型的一个特点是瓶颈层,它提供了保持其表现力的手段,同时减少了多次累积操作的数量和所需的存储。根据经验证明了所提出的离线HCCR模型中瓶颈层的有效性。本文称之为Melnyk-Net。
尽管不同的数据增强以及特征手工制作和空间转换技术已成功用于离线HCCR,但本文不会使用这些技术,以便将本文的工作主要集中在寻找仅用于原始手写输入数据的训练的最佳超参数上。
本文选择深度神经网络方法的原因是它们对大规模分类任务的高识别性能,端到端训练的可用性以及对其改进的持续研究。
为了训练Melnyk-Net,本文使用了由中国科学院自动化研究所(CASIA)的国家模式识别实验室(NLPR)收集的CASIA-HWDB1.0-1.1数据集,分别由420和300人编写。用于训练本文的网络的整体数据集包含2,678,424个样本,属于3755个不同的字符类别,对应于关键的官方字符集GB2312-80level-1。本文在离线HCCR的最常见基准上评估本文的模型-ICDAR-2013竞赛数据集,包含由60人编写的224,419个样本。
本文使用反向传播算法训练本文的模型。通过最小化多级负对数似然损失函数(也称为交叉熵)来执行训练。为了实现它,本文使用随机梯度下降(SGD),动量项为0.9用于训练,这是近几年来这方面几乎所有CNN方法的常见选择。利用批量标准化(BN)允许本文选择更高的学习率。为了处理过度拟合,本文在softmax层之前利用了L2正则化随机失活。
导致CNN缺点的主要原因之一是网络可解释性。就像离线HCCR这样的大规模分类问题而言,这个问题是特别有趣的。在这个领域,诸如小笔画等低级视觉特征和它们的高级结构连接对于进行正确的预测非常重要。该领域的许多先前的工作没有解决网络可解释性的问题。
为了解决这个问题,本文采用了类激活图(CAM)的知识。本文解释了如何通过它对最相关的汉字部分进行可视化,从而提高网络的可解释性。与之前在离线HCCR环境中完成的网络层输出的可视化不同,利用CAM可以从开始到结束理解全过程。
受到全局平均池化(GAP)的改进方法——全局加权平均池化(GWAP)的启发,本文提出一个全局加权输出平均池化(GWOAP)。本文将说明如何计算类激活图(CAM),用CNN标识用于识别某个汉字最相关的输入字符图像区域。本文通过实验验证了softmax的偏差对分类精度几乎没有影响,与前人的工作相似,本文在计算CAM时忽略它。之后,本文使用双线性上采样将获得的6×6映射上采样到输入图像大小,并将它们与输入一起绘制以显示其最相关的区域。本文比较了GAP的两种改进方法在离线HCCR竞赛中的表现,并讨论了通过所提出模型对不同汉字图像计算的CAM。
值得注意的是,最后一个卷积层输出的较小尺寸导致较模糊的CAM,因为本文需要将CAM上采样到输入的大小。通过实验,本文观察到6×6输出特征图和96×96输入图像可以获得模型性能和CAM视觉清晰度之间的良好平衡。在HCCR中,由于没有数值度量,CAM的评估是非常主观的,这与对象定位任务不同。
在ICDAR-2013离线HCCR竞赛数据集的评估中,本文展示了Melnyk-Net与先前最先进的模型相比具有一系列优势:它可以降低0.83%的相对误差,同时具有相同的计算成本和仅需一半的存储量。这些改进是通过利用带有瓶颈的卷积层和全局平均操作来实现的。尽管Melnyk-Net的深度只有15层并且没有残差连接,但它的性能甚至超过了最近基于ResNet的方法。
对MNIST和Fashion-MNIST数据集的评估结果表明,即使不进行许多额外的实验和搜索新的超参数,仅对原始数据进行训练的Melnyk-Net也可以成功地用于比离线HCCR规模小得多的分类任务。
此外,Melnyk-Net能够作为离线HCCR等大规模识别问题中分类错误分析的良好工具。