论文部分内容阅读
图像中的文本蕴含丰富的语义信息,这些信息是图像内容描述和场景理解的关键线索,对于图像检索、信息检测、场景分析和智能控制等应用有着巨大价值。同时,智能手机、数码相机等具有拍摄功能的便携式设备日益普及,图像也成为最易于获取的信息载体之一,进而催生了用户借助便携式设备拍摄图像,通过提取图像中的文本信息辅助进行分析、决策、组织与管理的大规模需求。因此,自动化提取图像中的文本信息具有广泛的应用背景和重要的研究意义。 图像中的文本信息提取是指在文本叠加或依存的图像中,经过文本检测和定位抽取出文本图像,再利用文本分割和识别提取文本信息的过程。虽然传统的文档识别技术已经取得了令人瞩目的成果,但是只适用于格式化的文本文档的识别,而常见的自由文本图像,如视频字幕和解说等人工叠加文本图像,以及路牌和菜单等自然场景文本图像,经常由于背景干扰、遮挡、污染、光照变化、拍摄角度倾斜、成像效果差等因素使得从图像的提取文本信息面临诸多挑战,因此,针对自由文本图像的文本提取技术成为当前该领域的研究热点和难点。 本文围绕图像文本提取的相关技术展开,重点研究了自由文本图像中的文本检测方法,文本定位方法和低质量汉字图像的识别方法,取得了如下的研究成果: 1、基于笔画特征的文本检测方法 长期以来,自由文本图像中的文本检测主要基于边缘、连通分量和纹理特征开展研究,但是边缘特征对图像中的光照和对比度变化比较敏感,连通分量特征不适用于文本由非同质区域构成的情况,纹理特征则容易同相似背景混淆从而增加提取难度。针对上述问题,本文提出一种新颖的基于笔画特征的文本检测方法,通过对文本字符的基元——笔画建立通用的数学模型来驱动文本的检测。该方法通过分析文本字符笔画在尺度空间中的形态特性构建笔画的数学模型,并利用高斯差分(Difference ofGaussian,DoG)滤波器的极值响应来获取候选笔画连通分量。同时,二阶泰勒公式将用以移除误检测的边缘响应,并最终得到候选字符。实验结果表明该方法不仅具有较好的尺度选择特性,还适用于模糊、间断、对比度低等多种类型文本的检测。同时,该方法也可以作为一项基础技术应用于图像处理的其他领域。 2、基于组件树约束的文本定位方法 前述文本检测方法通过探索尺度空间,生成文本在不同尺度下的结果。然而,同一段文本在不同尺度下检测的结果有好有坏,不匹配的尺度不仅可能造成字符粘连或笔画断裂,在极端情况下甚至会漏检文本。因此,如何组织这些不同尺度的候选字符并评估其质量,如何选择文本行匹配的尺度并确定其在图像中的位置便成了需要解决的问题。本文利用前述文本检测方法提取出的多尺度候选字符构建组件树,通过树结构中的祖先-子孙约束和兄弟约束,结合启发式规则和字符分类器打分策略,筛选出同一幅图像中不同文本行在不同尺度下质量较好的结果,并以此作为最终文本定位结果。该方法同近期公开发表的文本定位方法进行对比实验,取得了更高的召回率和较高的正确率。实验结果也表明该方法能够更好地定位模糊、笔画间断和噪声干扰的文本图像。 3、基于字符空间布局的文本定位方法 图像中文本信息提取有大量的应用是基于便携式拍摄设备的,比如菜单翻译、路牌识别、日程记录等,这些应用无一例外都需要快速地从拍摄场景中提取文本信息以便与用户进一步交互,因此要求文本信息提取过程具有实时性。同时,便携式设备的内存通常仅有较小的容量,这也给文本信息提取的内存占用提出了要求。本文提出了一种简单、高效的方法实现对自由文本图像中文本区域的快速定位,一方面,将多层尺度空间的图像融合在一层图像中统一处理,实现了内存空间的高效利用;另一方面,通过设定并检验候选字符的空间构型及其空间布局关系,快速地定位文本区域。实验结果表明,该方法在保持较高正确率和召回率的基础上,实现了图像文本的实时定位。由于应用了笔画特征,本文两种定位方法均归为基于笔画特征的文本定位方法。 4、低质量汉字图像的分块搜索两级识别法 由于汉字笔画复杂,常规技术从自由文本图像中分割的汉字图像质量往往较差,使得传统光学字符识别(Optical Character Recognition,OCR)的结果不甚理想。为了解决从图像中分割出的低质量汉字图像的识别问题,本文提出一种基于分块搜索的两级识别方法,通过模仿低质量汉字图像生成训练集并建立汉字图像的分块结构,对训练集中各分块图像应用主成分分析提取特征并建立索引。待识别图像利用分块搜索和投票的方式从索引中获取候选汉字集合(一级识别),再根据投票结果的显著性辅以全局结构特征匹配识别汉字(二级识别)。实验结果证明,相对于普通的OCR方法,本文方法对低质量汉字图像取得了更高的识别率。