自然场景文本检测与识别方法研究

来源 :中国科学院大学 | 被引量 : 0次 | 上传用户：AKDelphi

【摘要】

：

文字作为人类文明进步的一个重要标志，是人类交流的主要媒介。随着互联网行业的飞速发展以及拍照智能终端的广泛应用，以图像为载体的多媒体信息为人们的生活带来了极大的方便。

【作者】

：

王燕娜

【机构】

：

中国科学院大学

【出处】

：

中国科学院大学

【发表日期】

：

2018年期

【关键词】

：

自然场景图像文本检测文字识别字符特征

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

文字作为人类文明进步的一个重要标志，是人类交流的主要媒介。随着互联网行业的飞速发展以及拍照智能终端的广泛应用，以图像为载体的多媒体信息为人们的生活带来了极大的方便。图像中的文字能表达丰富和准确的语义信息，因此对图像中的文字进行自动检测和识别的需求越来越多，也吸引了越来越多研究者的关注。近几年，扫描文档的文本自动识别技术日趋成熟，而自然场景中的文本自动检测和识别性能依然不理想，受到诸多干扰因素的影响，如文字字体不同、低分辨率、光照不均以及复杂多变的背景。　　本文结合场景文本自身的特点，对场景文本检测与识别领域涉及到的文本检测、文本二值化以及文本识别问题展开了一系列的研究。本文的主要工作和贡献包括以下几方面:　　1.由于自然场景中各种因素的干扰，文本类内存在很大的差异，背景存在诸多的不确定性，单一的分类器或特征很难有效地区分文本区域和非文本区域。针对以上问题，本文提出了基于卷积神经网络和上下文信息的图模型文本检测方法。该方法从文本自身特点出发，将多源信息融合到一个框架中，提高文本检测性能。本文利用极大稳定性区域算子检测字符候选，提高字符召回率及检测速度，然后融合多个上下文信息以及单个字符候选区域信息构建图模型改善检测性能，进一步采用上下文信息恢复丢失的文本提高字符召回率，最后为减少文本行类内变化，为不同形状的文本行设计了包含灰度及二值信息的不同文本行分类器，提高文本行分类结果，改善最终的检测性能。实验结果表明，本文的场景文本检测方法在四个公开数据集上均达到了满意的性能，表明了该方法的有效性和通用性。　　2.针对适用于传统扫描文本块识别的二值化方法在场景文本上效果较差，本文提出了基于笔画特性的自适应场景文本二值化方法。为减少复杂背景的干扰以及相邻字符间不同笔画的影响，本文首先将整个文本行图像分割成多个子图，然后利用字符的笔画特性设计算法自动地选择置信度较高的前景像素和背景像素，并且根据获取的种子像素生成初始的前景和背景聚类中心，以此为基础获得整图的聚类中心，最后结合像素自身的信息和上下文信息利用图模型实现最终的文本二值化。在视频叠加文本图像以及场景文本图像上，本文利用文本识别评价指标以及像素层评价指标评估该方法，验证了该方法对文本图像二值化的有效性。　　3.字符识别的一个重要因素是字符特征，本文从字符特征表示的角度出发，提出了基于卷积激活的场景字符特征表示方法。本文利用卷积神经网络提取字符笔画部件特征。接下来，考虑到字符是一种结构化的目标，本文在卷积激活特征中融入空间信息，并采用池化策略和编码策略生成全局字符特征表示。为了应对不同图像大小的字符笔画变化，本文采用多尺度图像输入增强字符特征的鲁棒性。为了评估基于卷积激活字符表示的有效性和通用性，本文除了在公开的英文数据集上进行评估之外，还收集了一个中文场景字符数据集，用于中文场景字符识别领域的研究。本文在七个场景字符数据集上全面评估了本文提出的方法，并探索了基于卷积激活的字符表示方法在不同语言字符识别上的性能差异。实验结果表明，基于卷积激活的字符表示方法对多语言字符识别是有效的。　　4.考虑到场景字符由一系列按照特定规则排列的笔画组成，本文充分利用字符的笔画特性和结构特性，进一步提出了两种基于卷积激活的场景字符表示方法。本文首先提出了基于多阶共生激活编码的字符特征，该方法认为单个的鉴别性笔画信息可以为字符识别提供重要的线索。除此之外，多个鉴别性笔画的共生信息可以为字符识别提供更多的上下文信息。本文构建多阶共生激活来捕获多层次笔画之间的关系提升特征的表示能力，并且进一步采用编码策略聚合提取的多阶共生激活描述子生成字符全局表示。本文在国际公开的数据集以及本文收集的中文数据集上评估了提出的方法，实验结果验证了本方法的有效性。为了更充分地挖掘字符的结构信息，本文将每一类字符看做一种结构化目标，提出了基于空间嵌入笔画部件判别检测器的字符识别方法。该方法将字符的笔画检测器与空间位置相结合，认为识别字符时不同类别的字符鉴别性笔画不同。本文利用卷积激活表示字符笔画部件特征，自动学习笔画检测器，并自动挑选对应于鉴别性部件的笔画检测器，并对每一个检测器分配一个响应区域。接下来本文将鉴别性部件检测器与空间位置相关联，来缓解字符平移、旋转和变形等的影响，最终聚合检测器响应生成最终的字符特征。实验结果表明本文提出的字符识别方法在英文和中文场景字符数据集上均取得了优异的识别性能。　　总之，本文在自然场景文本的检测、二值化及识别问题上展开研究，并取得了一定的进展。

其他文献

表面贴装软件系统元器件智能定位与识别算法

机器视觉软件系统是表面贴装工艺流程中不可缺少的核心部分,目前在国外对它的研究工作已经进入了鼎盛时期,以此为基础带来的产业受益也非常丰厚,而我国在这方面的投入和研究

学位

元器件元器件识别系统识别系统定位算法定位算法视觉产品视觉产品贴装工艺贴装工艺

BTT拦截导弹制导与控制的关键技术研究

本文的研究主要是围绕着BTT拦截导弹的建模、控制和制导所展开的。第一部分在参考国外导弹数据的基础上，给出了BTT拦截导弹空气动力和力矩模型、发动机模型以及作动器模

学位

拦截导弹导弹制导空气动力力矩模型数学模型视景仿真

基于DSP的数字功率因数校正设计

电力电子技术和电子仪器中广泛应用的整流-滤波变流方案虽然原理简单,但确存在着严重的弊端。由于电路自身的非线性因素和储能元件的存在,输入交流电流严重畸变成脉冲状,不仅

学位

输电网络输电网络无功补偿无功补偿谐波治理谐波治理数字控制器数字控制器

硬盘播出素材管理子系统的设计与实现

随着经济社会的发展,广播电视已成为人们平时娱乐消遣的重要选择。广播电视播出系统的好坏是决定其播出质量的重要因素。而经过多年的发展,广播电视播出系统由原来的纯手动系

学位

硬盘播出素材管理FTP用户管理素材迁移

催化裂化装置控制系统优化设计

本文基于前置烧焦罐式催化裂化装置反应-再生系统动态数学模型，在gPROMS软件平台上搭建催化裂化装置仿真模块，分析其动态特性。并且利用定量的方法，将常规控制结构选择问题转化

学位

催化裂化装置数学模型多变量PID控制分馏塔

基于FPGA的振弦频率检测技术研究

振弦式传感器是利用振弦的固有频率随弦的张力变化而变化从而进行测量的一类装置。其频率输出的固有特性，决定了振弦式传感器易于和数字系统和计算机结合的优势，并且不会因传输

学位

振弦传感器FPGA频率测量检测技术

中和反应装置的区间预测控制及其机理模型的输出变量变换

本文针对实验室的一套中和反应装置建立了一套机理模型，该模型采用每步在当前工作点(非平衡点)线性化的方法获得线性化子模型，并采用离中和点的距离替换pH值成为被控变量，降低了

学位

中和反应装置预测控制pH控制变量替换

原油换热网络漏流非正常工况的机理建模、分析与控制

建立多管多壳换热器正常/正常工况的动态机理模型，并且用来搭建一套实际原油换热网络的仿真系统，仿真得出该换热网络正常工况的操作夹点位置和非正常工况(漏流)对网络的影响，并

学位

换热器换热网络仿真系统多管多壳

网络图像检索系统中关键技术的研究

当前成像技术的快速发展，使数码相机、可拍照手机等设备日益普及，各种各样的图像数量飞速增长。同时，互联网的诞生与快速发展极大地促进了人们之间的信息交流，也使图像传播变得更

学位

图像检索网络信息自动图像标注语义挖掘反馈模型

智能封堵器海底通信中的水声技术研究

我国海上油气勘探和开发已进入高速发展阶段，管道的铺设量越来越大，目前总长度已超过3000公里。但由于各种原因，管道的损伤渗漏事故也在逐年攀升，一旦发生事故，不仅会造成极其严重

学位

海底通信智能封堵器水声换能器通信协议水声通信

自然场景文本检测与识别方法研究

其他学术论文