论文部分内容阅读
基于图像的文字检测与识别技术是计算机视觉领域的重要任务之一,光学字符和自然场景文字是两类重要的辨识目标。光学字符识别是指,从扫描文档图像中,提取其中的文字信息,目前扫描文档文字识别技术已相对成熟。另一类是自然场景文字识别,提取自然场景图像中的文字,由于自然场景下背景复杂,成像质量不佳,文字样式多样,识别自然场景中的文字的难度远高于前者,目前主流的文字检测与识别方法还不足以满足实际工业应用的需求。本文聚焦于自然场景文字识别在工业领域的应用,以发动机铭牌识别为例,本文工作主要包含以下几个方面:
1、介绍了自然场景下文字检测与识别技术的研究现状,包括目标检测,文字检测,文字识别领域的研究进展。
2、从实际应用的角度出发,构建了一个发动机铭牌识别数据集,该数据集包括约1400张便携设备拍摄的柴油发动机铭牌图像,人工标注了图像中文字区域,以及对应的文字内容。由于柴油发动机常年工作环境恶劣,铭牌表面大多锈迹斑斑,文字包含数字、字母、符号、汉字等多种字符,以及雕刻、印刷、凸起等多种印刷形式,自然场景下拍摄的铭牌图像也无法保证较好的清晰度、固定的拍摄角度和水平的铭牌图像方向。另外,随着信息化时代的到来,在发动机检测和维修中,需要将铭牌上的信息录入信息管理系统,铭牌文字识别虽然属于简单且重复性高的工作,目前自动化程度不高,大量依赖人工识别,识别效率低下,复杂场景下人工识别精度也有限,导致企业人力成本高昂。所以该数据集具有很强的挑战性与实用价值。
3、本文设计了一种铭牌文字检测与识别方法,主要包括两个部分:检测与识别。文字检测阶段,我们设计了一种图像方向分类网络,由分类网络得到铭牌图像大致方向信息,再结合铭牌图像中的表格边框线将铭牌调整至水平方向,解决了图像方向对文字识别部分的不利影响;其次,我们引入并改进了DB模型定位图像中的文字位置。文字识别阶段,我们引入了一种自适应图像空间变换模块,利用薄板样条变换对文字图像进行校正,解决了透视变换导致的文字区域图像变形而影响文字识别精度的问题;我们设计了一种文字识别模型,可以充分利用文字区域的视觉特征和文字本身的语义特征,改善了个别字符因铭牌表面锈迹或者拍摄不当造成的模糊而难以辨认的情况。最后,我们引入里德-所罗门纠错算法,证明了铭牌印刷阶段,在文字实例中添加少量的纠错信息,可以进一步提高文字识别的准确度。
我们在发动机铭牌识别数据集上展开了大量实验,实验结果表明,本文提出的方法可以满足工业场景的需要。
1、介绍了自然场景下文字检测与识别技术的研究现状,包括目标检测,文字检测,文字识别领域的研究进展。
2、从实际应用的角度出发,构建了一个发动机铭牌识别数据集,该数据集包括约1400张便携设备拍摄的柴油发动机铭牌图像,人工标注了图像中文字区域,以及对应的文字内容。由于柴油发动机常年工作环境恶劣,铭牌表面大多锈迹斑斑,文字包含数字、字母、符号、汉字等多种字符,以及雕刻、印刷、凸起等多种印刷形式,自然场景下拍摄的铭牌图像也无法保证较好的清晰度、固定的拍摄角度和水平的铭牌图像方向。另外,随着信息化时代的到来,在发动机检测和维修中,需要将铭牌上的信息录入信息管理系统,铭牌文字识别虽然属于简单且重复性高的工作,目前自动化程度不高,大量依赖人工识别,识别效率低下,复杂场景下人工识别精度也有限,导致企业人力成本高昂。所以该数据集具有很强的挑战性与实用价值。
3、本文设计了一种铭牌文字检测与识别方法,主要包括两个部分:检测与识别。文字检测阶段,我们设计了一种图像方向分类网络,由分类网络得到铭牌图像大致方向信息,再结合铭牌图像中的表格边框线将铭牌调整至水平方向,解决了图像方向对文字识别部分的不利影响;其次,我们引入并改进了DB模型定位图像中的文字位置。文字识别阶段,我们引入了一种自适应图像空间变换模块,利用薄板样条变换对文字图像进行校正,解决了透视变换导致的文字区域图像变形而影响文字识别精度的问题;我们设计了一种文字识别模型,可以充分利用文字区域的视觉特征和文字本身的语义特征,改善了个别字符因铭牌表面锈迹或者拍摄不当造成的模糊而难以辨认的情况。最后,我们引入里德-所罗门纠错算法,证明了铭牌印刷阶段,在文字实例中添加少量的纠错信息,可以进一步提高文字识别的准确度。
我们在发动机铭牌识别数据集上展开了大量实验,实验结果表明,本文提出的方法可以满足工业场景的需要。