基于全卷积神经网络的自然场景文字检测文法研究

来源 :武汉大学 | 被引量 : 0次 | 上传用户:shouer77
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
文字是人类智慧的抽象表达,它出现在生活的每个角落。近年来,文字检测在计算机视觉领域掀起了一股研究的热潮,被广泛应用于智慧城市、人工智能、场景解译等方面,展现了巨大的市场潜力。人们对于文字检测的场景的需求也从简单到复杂,从单一到多元。然而传统的文字检测主要针对简单的文字场景,本题目主要目的是总结前人的研究成果,结合最新的文字检测技术,以深度学习为基础实现一种适用多种场景的高效稳定的文字检测算法。本文的主要内容如下:
  (1)自然场景文字合成。为了满足训练数据的要求,本文基于场景深度图和分割图合成了大量贴近真实数据的合成数据,导出多种数据格式以适用于不同的训练网络。
  (2)全景影像文字区域粗提取。本文利用全景影像自身特点裁去影像无效区域。利用高斯滤波、中值滤波对图像噪声进行平滑,利用引导滤波解决图像增强问题。然后对全景影像进行灰度边缘梯度检测、影像密度检测、轮廓线提取。剪裁下全景影像候选区域,输入检测网络获得最终检测结果。
  (3)基于全卷积神经网络(Fully Connected Network,FCN)的多任务文字检测网络设计。首先对输入影像进行比例缩放和随机剪裁扩充输入数据。以ResNet50为底层网络,将特征影像逐层向上合并,同时考虑底层抽象信息和顶层细节信息。获得影像得概率得分图和几何得分图,利用平衡熵损失函数,平衡文字正负样本数目差异。最后得到可以检测多角度的多边形文字检测框。同时在训练过程中引入残差网络(Resnet)提高实验检测精度和效率。
  (4)影像后处理。本文利用标志牌长宽比、面积大小、倾角范围等固有几何特征,以及文字在成像空间上具有一定距离范围的拓扑约束过滤全景影像候选区域。利用局部非极大值抑制的方法完成检测网络候选框过滤,去除伪文字区域。通过逐行搜索候选框并进行像素合并的方法降低后处理函数时间复杂度。
  本文在标准数据集、中文数据集和全景影像数据集三类数据集上进行了网络训练和测试,精度分别能达到84%,69%,71.2%,比本文对比方法提升了5%到7%,在全景影像上比Adaboost传统方法检测精度提高了12%。时间效率上,比VGG16网络提高了2.5倍,比本文使用的对比网络提高了10%到50%。
其他文献
学位
学位
学位
学位
学位
学位
学位
近年来钢质桶体结构在港口工程应用广泛,由于半径大厚度小,再外加的荷载无论是轴压还是围压作用下都易发生屈曲失稳。本文采用有限元数值模拟的方法,对钢质桶体稳定性问题进行了研究,开展的主要工作如下:  ⑴应用有限元分析软件,对单个钢桶下沉过程中不同埋深的受力情况进行数值模拟,检验有限元模型的可行性,并对钢桶负压下沉时桶体的内力分布特性进行研究。  ⑵为了能够更好的指导桶型基础施工及下沉过程,对钢质桶体基
学位
本文针对贺兰山东麓砾石土区域不同滴灌方式及水肥条件对酿酒葡萄的影响问题,采用随机区组试验与正交试验,系统的进行了不同滴灌方式及水肥条件对酿酒葡萄生长、光合、产量和品质等指标的影响研究,为贺兰山东麓酿酒葡萄高效节水灌溉和提质增效提供理论依据与技术支撑。主要研究成果如下:  (1)采用两因素三水平随机区组试验,研究了不同滴灌方式及灌溉定额对酿酒葡萄生长、光合、产量和品质的影响。研究表明:膜下滴灌高水(
学位
宁夏地处我国半干旱区,年降水量稀少、蒸发强烈,水资源极为短缺,当地农林牧业的灌溉主要以黄河水为主,随着黄河水量的消减及新型工业用水量的增加,经济林果作为宁夏农业产业结构调整的主要方向,其发展受到极大限制,如何通过改进节水灌溉方式、提高经济林果产量和水分利用效率,是实现林果业可持续发展的有效途径。为推动干旱地区经果林精准灌溉,助力农业产业结构调整,切实提高经果林产量和水分利用效率,本文以同心圆枣为研
学位