自然场景文字检测与识别系统

来源 :中国科学院大学 | 被引量 : 0次 | 上传用户：yangminfeng_1

【摘要】

：

近年来，伴随着互联网行业的飞速发展以及数码相机、智能手机等电子产品的广泛普及，以图片和视频为载体的多媒体信息正逐渐成为信息传递的主要方式。图片和视频中包含大量自然场

【作者】

：

王潇

【机构】

：

中国科学院大学

【出处】

：

中国科学院大学

【发表日期】

：

2015年期

【关键词】

：

文字检测文字识别自然场景信息融合

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

近年来，伴随着互联网行业的飞速发展以及数码相机、智能手机等电子产品的广泛普及，以图片和视频为载体的多媒体信息正逐渐成为信息传递的主要方式。图片和视频中包含大量自然场景中的图像，其中含有的丰富多变的文本携带着图像的高层语义信息，对理解图像内容有重要帮助。　　自然场景图像中的文字识别有着很多重要的应用价值，可使用在诸如实时翻译、辅助导航、交通监控、助残服务等领域。因此，对自然场景图像中的文字进行检测及识别正日益成为一个迫切的现实需要。然而，基于移动设备采集得到的大量自然场景图像中的文字，面临诸如复杂背景、光照不均、多变字体等问题，使得其检测与识别相比于传统的扫描文档字符识别更加困难。在学术领域，现如今自然场景下的文字检测与识别逐渐成为计算机视觉领域的研究热点，发展成为模式识别应用的一个重要领域，吸引着大批国内外学者和研究人员投入到相应的研究工作中，迄今已取得很大的进展。然而，要让场景文字检测与识别技术能够广泛应用，走进人们的日常生活依然任重道远。　　图像文字检测与识别系统主要包含文字检测和文字识别两部分:文字检测用于定位图像中的文本块，从中抽取出文字区域;文字识别通常是将检测抽取得到的单字二值或彩色图像块进行分类判定，得到文本信息。本文系统性地对自然场景文字检测与识别进行了研究:在文字检测方面偏重实际应用，主要面向基于移动端设备的实现;在文字识别方面，进行了深入的分析，在识别方法上进行了创新。本文的主要工作内容概括如下:　　第一，提出一种基于连通域的多信息融合场景文字检测方法。首先，该方法面向移动端应用，通过用户交互进行预处理。用户简单标记出待识别目标文本区域的过程，降低检测难度的同时提高了检测效率。然后，利用边缘检测定位文本区域进一步滤除不需要的背景区域。最后，在定位文本块中提取连通域，通过连通域分析并融合笔画宽度和颜色信息提取文字区域。在自主采集的场景文字数据集上的实验结果表明该方法具有较好的检测效果和较快的速度，且具有较好的鲁棒性。通过实验实际验证该方法的实用性。　　第二，提出了一种基于Image-to-Class(I2C)距离度量学习的场景文字单字符识别方法。该方法在特征表示层面选择全局梯度直方图(GHOG)特征描述场景单字图像块。在距离度量选取时，选择计算马氏距离，并采用12C距离替代一般的I2I(Image-to-Image)距离，通过距离度量学习形成一套区别于基于最近邻(NN)和支持向量机(SVM)的字符分类方法。相比较已有主要经典算法，该方法具有一定优势，在标准数据集CHARS74K和ICDAR2003上均取得了更高的识别准确率。　　第三，本文研究的场景文字检测与识别系统以应用为目的，将现今人们普遍使用的智能手机做为目标载体，使系统能够应用于移动终端——Android智能手机。本文设计并实现了场景文字检测与识别系统原型，以移动端应用App形式呈现。本场景文字识别App主要功能是对用户拍照并选取的感兴趣区域进行文本检测与识别。通过实际使用测试，验证了方案的可行性和场景文字检测识别系统的实际应用价值。

其他文献

集散型多通道数据采集系统

该文根据集散系统的基本原理,以进行农作物科学实验的工程背景,设计了一套集散多通道数据采集系统.该系统采用80C196单片机构成多功能控制器,实现了对光照、湿度、温度等多路

学位

集散型控制系统数据采集系统数据通信单片机系统

基于神经网络的自然语言处理研究

神经网络是模拟人类神经结构和功能的数学模型，它是近年来机器学习领域发展最为迅速的研究方向之一，在一系列人工智能的重要任务中（比如图像识别、语音识别等等），取得了突破性的成

学位

自然语言处理词语相似度词向量情感分析句子分类神经网络

S-10型天象仪控制系统的研究

该论文是课题"新型S10天象仪控制系统设计与实现"的一部分.论文的主要任务是完成控制系统的建模与结构设计、控制系统软件的总体设计与实现,以使新型的天象仪系统能够实现节

学位

控制系统数学模型应用软件天象仪控制系统实时操作系统分布式控制多线程结构

PUMA562机器人的分散预测控制

分散动态矩阵预测控制算法是一个计算得单、跟踪性能和鲁棒性能良好的优化控制算法.作为预测控制理论和实际应用研究的一个发展方向,受到广泛的注意.PUMA562机器介一个具有非

学位

PUMA562机器人分散结构预没控制

面向窄带通信信道的语音质量增强问题研究

在窄带语音通信系统中，一个重要的问题就是如何在复杂环境下充分利用带宽资源对语音信号进行有效的传输和增强处理，以保证语音通信系统中语音信号的话音质量。在实际的通信环境

学位

窄带语音通信系统语音端点检测话音质量单通道语音增强算法语音带宽扩展算法

基于模糊理论的智能综合评判系统的研究

该文概述了人工智能学科的发展历史和最新动态,介绍了一些常用的知识表示方法.通过对模糊综合评判原理的分析,借鉴国内外综合评判的常用方法,提出了智能综合评判的模型.并详

学位

智能综合评判系统模糊理论统计评判表面向对象

MRPⅡ在卷烟生产中的应用与实现

MRPⅡ(制造资源计划)是一种先进的管理思想和方法,是当今世界制造业普遍采用的计算机辅助企业管理系统.该文主要介绍了基于MRPⅡ理论和ORACLE数据库的卷烟厂生产管理信息系统

学位

制造资源计划卷烟生产管理管理信息系统数据库应用系统

液位线性系统实验装置的智能化改造

该论文阐述了液位线性系统实验装置的改造过程,主要包括控制理论的应用研究和软件开发两个方面.文中先描述了实验装置的数学模型和实际特性;然后详细阐述了常规PID控制、辩识

学位

PID控制辨识自校正控制面向对象方法

基于结构模型的物体检测

物体检测是从图片或者视频中判断“什么物体在什么地方”的计算机视觉问题。长久以来，物体检测被认为是计算机视觉高层语义分析中的核心问题，也是其他诸多应用问题的基础，如图片

学位

物体检测技术形变部件模型超像素标注结构学习深度学习

三自由度飞行模拟转台电液伺服系统的计算机控制

该论文是教研室实验仪器设备改造项目的一部分,主要对三自由度飞行模拟转台电液伺服控制系统进行更新换代,用计算机控制来提高转台的实验性能.论文完成了以下工作:该文首先以

学位

飞行模拟转台电液伺服控制系统计算机控制数字仿真数据采集动画显示

自然场景文字检测与识别系统

其他学术论文