论文部分内容阅读
随着智能手机的普及以及互联网的迅速发展,通过手机,平板电脑等移动终端摄像头获取、处理和分享信息已经逐渐成为一种非常流行的生活方式。基于摄像头的(Camera-based)的应用程序更加注重对拍摄场景的理解。一般,在文本和其他对象同时存在的场景中,往往用户会更加关注自然场景中的文本内容,因此如何能够准确,快速的识别自然场景中的文本,对用户拍摄的意图和作品的主题会有更加深入的理解。然而,关于自然场景图像文本识别的研究还很少,相关算法也很不成熟,急需进一步的研究和探索。本文在深入分析这方面进展的基础上,探究自然场景图片中文字识别的多种方案,并结合深度学习技术设计和实现一个完善的自然场景图片文字识别系统。本文所研究的系统是一个自然场景文字识别系统,能够自动识别出自然场景图片中包含的文本信息。该系统由图像预处理模块、无监督特征学习模块、CNN字符检测模块、CNN字符分类模块和文本行检测模块组成。图像预处理是对图像进行对比对归一化,主成分分析以及白化操作从而进行无监督特征学习,学习到字符的特征词典。字符检测和字符识别使用了两个结构不同的卷积神经网络实现。字符检测模块中卷积神经网络的第一层卷积核是采用无监督特征学习方法得到的。该神经网络的输出连接到线性的支持向量机,作为判断该像素块是否为字符的分类器。字符识别模块结构与字符检测模块类似,唯一的区别是最后连接的是多层感知机。对于一幅图片,先通过CNN字符检测模块计算每一个像素块的得分,然后使用非极大值抑制算法定位出图像中的文本行。最后对文本行中的字符位置使用CNN字符识别模块计算字符分类得分,并在词表中搜索最佳单词。所实现的自然场景图像文字识别系统经测试满足用户功能性需求。为评估系统性能,本文所实现的识别系统在测试样本集上进行测试,结果表明总体性能满足预期目标:字符检测的训练识别率为94.47%,验证识别率为93.47%;字符识别的训练识别率为98.87%,验证识别率74.22%。