论文部分内容阅读
近年来,伴随着互联网行业的飞速发展以及数码相机、智能手机等电子产品的广泛普及,以图片和视频为载体的多媒体信息正逐渐成为信息传递的主要方式。图片和视频中包含大量自然场景中的图像,其中含有的丰富多变的文本携带着图像的高层语义信息,对理解图像内容有重要帮助。 自然场景图像中的文字识别有着很多重要的应用价值,可使用在诸如实时翻译、辅助导航、交通监控、助残服务等领域。因此,对自然场景图像中的文字进行检测及识别正日益成为一个迫切的现实需要。然而,基于移动设备采集得到的大量自然场景图像中的文字,面临诸如复杂背景、光照不均、多变字体等问题,使得其检测与识别相比于传统的扫描文档字符识别更加困难。在学术领域,现如今自然场景下的文字检测与识别逐渐成为计算机视觉领域的研究热点,发展成为模式识别应用的一个重要领域,吸引着大批国内外学者和研究人员投入到相应的研究工作中,迄今已取得很大的进展。然而,要让场景文字检测与识别技术能够广泛应用,走进人们的日常生活依然任重道远。 图像文字检测与识别系统主要包含文字检测和文字识别两部分:文字检测用于定位图像中的文本块,从中抽取出文字区域;文字识别通常是将检测抽取得到的单字二值或彩色图像块进行分类判定,得到文本信息。本文系统性地对自然场景文字检测与识别进行了研究:在文字检测方面偏重实际应用,主要面向基于移动端设备的实现;在文字识别方面,进行了深入的分析,在识别方法上进行了创新。本文的主要工作内容概括如下: 第一,提出一种基于连通域的多信息融合场景文字检测方法。首先,该方法面向移动端应用,通过用户交互进行预处理。用户简单标记出待识别目标文本区域的过程,降低检测难度的同时提高了检测效率。然后,利用边缘检测定位文本区域进一步滤除不需要的背景区域。最后,在定位文本块中提取连通域,通过连通域分析并融合笔画宽度和颜色信息提取文字区域。在自主采集的场景文字数据集上的实验结果表明该方法具有较好的检测效果和较快的速度,且具有较好的鲁棒性。通过实验实际验证该方法的实用性。 第二,提出了一种基于Image-to-Class(I2C)距离度量学习的场景文字单字符识别方法。该方法在特征表示层面选择全局梯度直方图(GHOG)特征描述场景单字图像块。在距离度量选取时,选择计算马氏距离,并采用12C距离替代一般的I2I(Image-to-Image)距离,通过距离度量学习形成一套区别于基于最近邻(NN)和支持向量机(SVM)的字符分类方法。相比较已有主要经典算法,该方法具有一定优势,在标准数据集CHARS74K和ICDAR2003上均取得了更高的识别准确率。 第三,本文研究的场景文字检测与识别系统以应用为目的,将现今人们普遍使用的智能手机做为目标载体,使系统能够应用于移动终端——Android智能手机。本文设计并实现了场景文字检测与识别系统原型,以移动端应用App形式呈现。本场景文字识别App主要功能是对用户拍照并选取的感兴趣区域进行文本检测与识别。通过实际使用测试,验证了方案的可行性和场景文字检测识别系统的实际应用价值。