论文部分内容阅读
文字是人类智慧的抽象表达,它出现在生活的每个角落。近年来,文字检测在计算机视觉领域掀起了一股研究的热潮,被广泛应用于智慧城市、人工智能、场景解译等方面,展现了巨大的市场潜力。人们对于文字检测的场景的需求也从简单到复杂,从单一到多元。然而传统的文字检测主要针对简单的文字场景,本题目主要目的是总结前人的研究成果,结合最新的文字检测技术,以深度学习为基础实现一种适用多种场景的高效稳定的文字检测算法。本文的主要内容如下:
(1)自然场景文字合成。为了满足训练数据的要求,本文基于场景深度图和分割图合成了大量贴近真实数据的合成数据,导出多种数据格式以适用于不同的训练网络。
(2)全景影像文字区域粗提取。本文利用全景影像自身特点裁去影像无效区域。利用高斯滤波、中值滤波对图像噪声进行平滑,利用引导滤波解决图像增强问题。然后对全景影像进行灰度边缘梯度检测、影像密度检测、轮廓线提取。剪裁下全景影像候选区域,输入检测网络获得最终检测结果。
(3)基于全卷积神经网络(Fully Connected Network,FCN)的多任务文字检测网络设计。首先对输入影像进行比例缩放和随机剪裁扩充输入数据。以ResNet50为底层网络,将特征影像逐层向上合并,同时考虑底层抽象信息和顶层细节信息。获得影像得概率得分图和几何得分图,利用平衡熵损失函数,平衡文字正负样本数目差异。最后得到可以检测多角度的多边形文字检测框。同时在训练过程中引入残差网络(Resnet)提高实验检测精度和效率。
(4)影像后处理。本文利用标志牌长宽比、面积大小、倾角范围等固有几何特征,以及文字在成像空间上具有一定距离范围的拓扑约束过滤全景影像候选区域。利用局部非极大值抑制的方法完成检测网络候选框过滤,去除伪文字区域。通过逐行搜索候选框并进行像素合并的方法降低后处理函数时间复杂度。
本文在标准数据集、中文数据集和全景影像数据集三类数据集上进行了网络训练和测试,精度分别能达到84%,69%,71.2%,比本文对比方法提升了5%到7%,在全景影像上比Adaboost传统方法检测精度提高了12%。时间效率上,比VGG16网络提高了2.5倍,比本文使用的对比网络提高了10%到50%。
(1)自然场景文字合成。为了满足训练数据的要求,本文基于场景深度图和分割图合成了大量贴近真实数据的合成数据,导出多种数据格式以适用于不同的训练网络。
(2)全景影像文字区域粗提取。本文利用全景影像自身特点裁去影像无效区域。利用高斯滤波、中值滤波对图像噪声进行平滑,利用引导滤波解决图像增强问题。然后对全景影像进行灰度边缘梯度检测、影像密度检测、轮廓线提取。剪裁下全景影像候选区域,输入检测网络获得最终检测结果。
(3)基于全卷积神经网络(Fully Connected Network,FCN)的多任务文字检测网络设计。首先对输入影像进行比例缩放和随机剪裁扩充输入数据。以ResNet50为底层网络,将特征影像逐层向上合并,同时考虑底层抽象信息和顶层细节信息。获得影像得概率得分图和几何得分图,利用平衡熵损失函数,平衡文字正负样本数目差异。最后得到可以检测多角度的多边形文字检测框。同时在训练过程中引入残差网络(Resnet)提高实验检测精度和效率。
(4)影像后处理。本文利用标志牌长宽比、面积大小、倾角范围等固有几何特征,以及文字在成像空间上具有一定距离范围的拓扑约束过滤全景影像候选区域。利用局部非极大值抑制的方法完成检测网络候选框过滤,去除伪文字区域。通过逐行搜索候选框并进行像素合并的方法降低后处理函数时间复杂度。
本文在标准数据集、中文数据集和全景影像数据集三类数据集上进行了网络训练和测试,精度分别能达到84%,69%,71.2%,比本文对比方法提升了5%到7%,在全景影像上比Adaboost传统方法检测精度提高了12%。时间效率上,比VGG16网络提高了2.5倍,比本文使用的对比网络提高了10%到50%。