论文部分内容阅读
字符是表达信息的重要方式之一,字符识别被广泛应用于门牌号码识别、车牌号码识别、档案检索、各类印刷品识别、邮政区域编码识别等领域。由于磨损、倾斜、遮挡、光照等外界因素的干扰,以及字符自身的多样性,使得准确、快速地识别自然场景中拍摄的字符,仍然存在很多现实问题。作为深度学习的一种常见网络模型,卷积神经网络被成功应用于图像分析与理解领域。本文以Google拍摄的街景门牌号码数据集(Street View House Number,SVHN)为研究对象,探索基于卷积神经网络的街景门牌号码识别的新方法和新技术。主要工作如下:(1)论述门牌号码识别技术和卷积神经网络的研究现状,并对卷积神经网络的组成模块及训练过程进行说明,对比分析LeNet-5模型、AlexNet模型、GoogLeNet模型和ResNet模型的特点和网络结构。(2)根据SVHN数据集的特点,提出一种基于卷积神经网络结构优化的门牌号码识别方法。该方法首先分析卷积神经网络结构设计过程中,激活函数、池化方式、滤波器大小、卷积层个数以及权值初始化方式对网络性能的影响;然后构建了 SVHN数据集中识别结果较为理想的卷积神经网络模型;最后,利用该模型完成特征提取,用SoftMax分类器进行特征分类,并最终给出10类门牌号码的识别结果。实验结果表明,所构建的卷积神经网络在模型训练稳定时,对SVHN测试集的识别率达到93.8%,识别效果高于HOG方法、KM-SVM方法、CNN-HMM方法、CNN-SVM方法,D-DBN方法以及基于DBN、SDAE和LeNet-5的识别方法。(3)传统卷积神经网络只将全连接层所映射的特征送入分类器中进行分类,忽略了网络前端所映射的细节信息。针对此问题,我们提出基于加权跨层特征融合的门牌号码识别方法。该方法首先利用主成分分析(Principal Components Analysis,PCA)方法对池化层的融合特征进行降维;然后根据各融合特征在网络识别过程中的贡献率给予权值,并将加权后的特征融合在一起;最后将融合后的特征送入SoftMax分类器,得到最终10类门牌号码的识别结果。实验结果表明,所提方法的训练时间为2.2小时,对SVHN测试集的识别率提高到95.6%。