自然场景中文本检测技术的研究与应用

来源 :中国科学院大学 | 被引量 : 0次 | 上传用户:wudizihao123
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网技术的高速发展以及便携式数码设备的快速普及,形式丰富且表现力强的图像、视频等多媒体数据逐渐成为人们获取和表达信息的重要载体。这些多媒体数据包含了大量自然场景中的图像,其中蕴含丰富的语义信息,理解自然场景图像中的语义信息对于多媒体数据的分析有重要帮助。自然场景图像中的文本信息是理解和描述场景语义的关键线索。因此,关于场景图像中文本信息提取的研究应运而生。不同于扫描文档中的光学字符识别,我们将自然场景的文本信息提取分为三个步骤:文本检测、文本分割、文本识别。文本检测是整个过程的第一步,检测的准确与否直接决定整体的性能。自然场景的文本检测任务面临诸多难点,场景图像存在模糊、遮挡、光照不均等失真,同时图像中包含树叶、窗户、栅栏等类似文本的背景杂物,此外场景图像中的文本在语言种类、颜色、字体、排列方向等方面也存在丰富的变化,实现高效而准确的文本检测成为极具挑战性的工作。  本文深入研究了自然场景中的文本检测技术,基于模式识别、深度学习等相关领域知识,提出了两种文本检测的算法,有针对性的解决了文本检测任务中的难点问题。相比现有主流的方法,算法在性能和速度上均有所提升。同时,本文将提出的算法应用于法庭台牌识别问题,实现了场景文本信息提取原型程序。主要工作内容可概括如下:  1.本文提出一种自底向上的级联过滤的文本检测算法,该算法通过多层次的文本级联过滤,解决了文本检测任务中模糊文本的漏召回问题以及文本类似物导致的虚警问题,提高了检测系统的精度。首先,算法选用单字召回率极高的极值区域算子在多通道图像下提取文字候选对象。为了减少虚警,算法结合几何先验信息和图像局部特征对文字候选对象进行过滤。随后,算法将文字连接成文本行,并提出文本熵的概念,结合图像的深度特征再次对文本行候选对象进行验证,不同层次的过滤最终保证了算法的精度和鲁棒性。实验表明,该算法在文档分析与识别国际会议的两个公开数据集上性能良好,相比现有主流算法,召回率、准确率均有所提升。  2.本文结合深度学习在目标检测领域中的研究,提出了一种基于单字检测网的文本检测算法。该算法构建了一个用于检测单字对象的快速区域卷积神经网络,解决了多语种的文本检测问题。首先,该算法提出一种基于邻近区域融合的最大极值稳定区域提取方法,有效地解决了中文等语言中出现的连通域断裂问题。随后,算法将字符候选对象包围框映射到快速区域卷积神经网络的特征图中,提取出固定长度的深度特征,并将其用于判断(1)该候选对象是否是文字(2)该假选对象是否是文本行的端点。最后,利用启发式规则将单字连接成文本行。实验表明,单字检测网算法能够快速有效地检测多种场景的不同语言的文本。  3.法庭台牌识别是法院庭审视频的标签管理应用中不可或缺的技术,本文将基于单字检测网的文本检测算法应用于法庭台牌识别系统之中,实现了场景文本信息提取原型程序。该程序通过迁移学习离线训练文本检测识别模型。学习完毕后,用户可通过命令行交互指定输入数据与超参数。随后,程序进行在线测试并将识别结果返回给用户。实验表明,该系统有良好的速度和精度。
其他文献
针对定义在偏置换矩阵上的组合优化问题,本文提出了基于高斯平滑的渐非凸渐凹化算法,并将其应用于图匹配等组合优化问题。定义在偏置换矩阵上的组合优化问题是计算机科学领域的
作为3G增强技术之一的多用户检测由于能很好的减少多址干扰和解决远近效应问题,显著提高系统容量等方面的优越性,使得它在众多新技术中备受关注。众所周知,随着经济水平的发
HART智能设备以其兼容(4~20)mA模拟信号且具备数字通信功能的优势获得广泛地应用。数字通信的功能使其能够实现在线的监测、诊断、校验等。构建HART数字通信网络,实现HART设备
随着移动机器人应用范围的日益扩展,在动态、非结构环境下提高自主导航行为能力已经成为移动机器人研究领域的首要问题。本文以“863”高技术计划资助项目“模块化机器人体系
学位
随着计算技术的不断发展及互联网应用的日益普及,各行各业产生了大量信息数据,如何有效利用和挖掘过往数据,学术界和工业界开展了大量的探索与尝试。基于电商历史交易数据可以辅
海底热流数据是开展海洋油气资源综合评价的一个重要参数。利用测量的海底热流数据,结合盆地演化认识和数值手段,可以获得各烃源层所经历的温度史,借助有机质成熟模型,有望揭
月球是离地球最近的天体,探索月球是人类认识太空的第一步。相比地球,月球环境非常恶劣,人类无法长时间在月球上进行各种考察活动,将月球探测车送上月球,通过其采集月表的岩
学位
在人机交互、智能监控、视频检索等领域,人体行为识别具有很大的应用价值。它已吸引了众多研究者专注于这个方向的研究。近年来,基于RGB视频的人体行为识别的研究取得了很大进
近些年大数据的兴起和高性能计算的普及,缓解了传统深度神经网络易过拟合和计算复杂度高等缺陷。由此,深度神经网络强大的数据表示能力得以被释放,并逐渐发展成为一个独立的领域
机器人技术代表了高技术的发展前沿,自从上世纪中叶起,这门技术越来越被世界各国所重视,各种各样的机器人被生产出来为人类从事着各种工作。履带式移动机器人是机器人学中的
学位