图像文本信息提取的关键技术研究

来源 :中国科学院大学 | 被引量 : 0次 | 上传用户:wychenjian
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
图像中的文本蕴含丰富的语义信息,这些信息是图像内容描述和场景理解的关键线索,对于图像检索、信息检测、场景分析和智能控制等应用有着巨大价值。同时,智能手机、数码相机等具有拍摄功能的便携式设备日益普及,图像也成为最易于获取的信息载体之一,进而催生了用户借助便携式设备拍摄图像,通过提取图像中的文本信息辅助进行分析、决策、组织与管理的大规模需求。因此,自动化提取图像中的文本信息具有广泛的应用背景和重要的研究意义。  图像中的文本信息提取是指在文本叠加或依存的图像中,经过文本检测和定位抽取出文本图像,再利用文本分割和识别提取文本信息的过程。虽然传统的文档识别技术已经取得了令人瞩目的成果,但是只适用于格式化的文本文档的识别,而常见的自由文本图像,如视频字幕和解说等人工叠加文本图像,以及路牌和菜单等自然场景文本图像,经常由于背景干扰、遮挡、污染、光照变化、拍摄角度倾斜、成像效果差等因素使得从图像的提取文本信息面临诸多挑战,因此,针对自由文本图像的文本提取技术成为当前该领域的研究热点和难点。  本文围绕图像文本提取的相关技术展开,重点研究了自由文本图像中的文本检测方法,文本定位方法和低质量汉字图像的识别方法,取得了如下的研究成果:  1、基于笔画特征的文本检测方法  长期以来,自由文本图像中的文本检测主要基于边缘、连通分量和纹理特征开展研究,但是边缘特征对图像中的光照和对比度变化比较敏感,连通分量特征不适用于文本由非同质区域构成的情况,纹理特征则容易同相似背景混淆从而增加提取难度。针对上述问题,本文提出一种新颖的基于笔画特征的文本检测方法,通过对文本字符的基元——笔画建立通用的数学模型来驱动文本的检测。该方法通过分析文本字符笔画在尺度空间中的形态特性构建笔画的数学模型,并利用高斯差分(Difference ofGaussian,DoG)滤波器的极值响应来获取候选笔画连通分量。同时,二阶泰勒公式将用以移除误检测的边缘响应,并最终得到候选字符。实验结果表明该方法不仅具有较好的尺度选择特性,还适用于模糊、间断、对比度低等多种类型文本的检测。同时,该方法也可以作为一项基础技术应用于图像处理的其他领域。  2、基于组件树约束的文本定位方法  前述文本检测方法通过探索尺度空间,生成文本在不同尺度下的结果。然而,同一段文本在不同尺度下检测的结果有好有坏,不匹配的尺度不仅可能造成字符粘连或笔画断裂,在极端情况下甚至会漏检文本。因此,如何组织这些不同尺度的候选字符并评估其质量,如何选择文本行匹配的尺度并确定其在图像中的位置便成了需要解决的问题。本文利用前述文本检测方法提取出的多尺度候选字符构建组件树,通过树结构中的祖先-子孙约束和兄弟约束,结合启发式规则和字符分类器打分策略,筛选出同一幅图像中不同文本行在不同尺度下质量较好的结果,并以此作为最终文本定位结果。该方法同近期公开发表的文本定位方法进行对比实验,取得了更高的召回率和较高的正确率。实验结果也表明该方法能够更好地定位模糊、笔画间断和噪声干扰的文本图像。  3、基于字符空间布局的文本定位方法  图像中文本信息提取有大量的应用是基于便携式拍摄设备的,比如菜单翻译、路牌识别、日程记录等,这些应用无一例外都需要快速地从拍摄场景中提取文本信息以便与用户进一步交互,因此要求文本信息提取过程具有实时性。同时,便携式设备的内存通常仅有较小的容量,这也给文本信息提取的内存占用提出了要求。本文提出了一种简单、高效的方法实现对自由文本图像中文本区域的快速定位,一方面,将多层尺度空间的图像融合在一层图像中统一处理,实现了内存空间的高效利用;另一方面,通过设定并检验候选字符的空间构型及其空间布局关系,快速地定位文本区域。实验结果表明,该方法在保持较高正确率和召回率的基础上,实现了图像文本的实时定位。由于应用了笔画特征,本文两种定位方法均归为基于笔画特征的文本定位方法。  4、低质量汉字图像的分块搜索两级识别法  由于汉字笔画复杂,常规技术从自由文本图像中分割的汉字图像质量往往较差,使得传统光学字符识别(Optical Character Recognition,OCR)的结果不甚理想。为了解决从图像中分割出的低质量汉字图像的识别问题,本文提出一种基于分块搜索的两级识别方法,通过模仿低质量汉字图像生成训练集并建立汉字图像的分块结构,对训练集中各分块图像应用主成分分析提取特征并建立索引。待识别图像利用分块搜索和投票的方式从索引中获取候选汉字集合(一级识别),再根据投票结果的显著性辅以全局结构特征匹配识别汉字(二级识别)。实验结果证明,相对于普通的OCR方法,本文方法对低质量汉字图像取得了更高的识别率。
其他文献
该论文首先在进程,进程表达式的基础上定义了进程表达式子式,全局满进程,闭包项等概念,通过进程分析有界Petrie网及其特殊子类标识S-图的动态性质.进而按运算符的多少引入一
在大规模数据处理中,文件系统是非常重要的环节之一。文件系统的性能直接影响到应用的性能和处理效率。随着高性能和分布式计算架构的发展,并行文件系统受到了越来越多的关注
学位
近十年来,多核、众核体系结构逐渐成为主流,如何充分利用多核、众核体系结构上丰富的计算资源成为学术界和工业界研究的热点。异步的任务图并行能发掘应用中更多的并行性而受到
传统的软件都是针对某个用户单独定制,无法同时为多个用户提供服务。SaaS是一种具有多租赁性的软件运营模式,在这种模式下同一套软件将可以同时出租给多个租户使用,租户间的数据
搜索引擎的出现使人们获取信息的效率大大提高,怎样从海量的搜索结果中将用户最关心、最需要的信息排在返回列表的最前面,即搜索结果的排序问题是信息检索领域研究的关键问题
该文在软件体系结构的指导下,对MIS进行了三层调查.在系统层抽象中对现有的两层C/S结构和三层C/S结构进行了分析;然后将着重点放到对功能层的抽象上,分析了现有的对功能层的
该课题研究了一种基于几何约束的二维参数化设计的方法,是一种将基于构造过种的方法和变量几何法相结合的机制.通过记录构图过种中几何图素的生成过程的先后顺及连接关系,在
为了满足科学计算和商业应用日益增长的规模需求,计算机系统规模不断扩大。在现今的超算中心或数据中心,高性能互连网络需要互连高达数万甚至数十万个节点。作为计算机系统的传
计算机软件技术极大的促进了社会的信息化进程,从个人移动计算到企业云计算,丰富的软件生态为我们的生产生活提供了极大的便利。但是,在提供便利性的同时,计算机软件系统潜在