叠加文字检测与分割算法研究

来源 :中国科学院研究生院中国科学院大学 | 被引量 : 0次 | 上传用户：Stephanie1121

【摘要】

：

图像和视频中的文字包含丰富的语义信息，在很多应用中占有重要的位置，如自动标注，基于内容的图片或视频检索与分析等。由于图像和视频中的文字通常叠加在复杂的图像背景之上，现有

【作者】

：

李小军

【机构】

：

中国科学院大学

【出处】

：

中国科学院研究生院中国科学院大学

【发表日期】

：

2009年期

【关键词】

：

文字识别

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

图像和视频中的文字包含丰富的语义信息，在很多应用中占有重要的位置，如自动标注，基于内容的图片或视频检索与分析等。由于图像和视频中的文字通常叠加在复杂的图像背景之上，现有的OCR技术难以识别出文字，因而如何从图像的复杂背景中提取出文字成为一个有必要研究的问题。从图片或视频中提取文字包括文字检测、文字分割和文字识别三个部分，文字检测是在图像或视频中找到文字行的位置，并且准确确定出其外轮廓；文字分割是在找到的文字行区域内，将文字前景与背景分离开，前景像素完全是文字像素；文字识别是将检测到的文字行中的内容读取出来。目前，文字识别研究的比较充分，已经有成熟的商业软件，所以本文的研究重点是文字检测和文字分割。在这两部分提出了具有创新性的算法，在速度和性能上都有一定的提升。最后，综合两部分研究并加入视频时序的优化算法，完成了基于视频的文字检测与分割系统。　　对于视频或图像中的叠加文字，本文提出一种基于笔画特征，由粗到细的文字检测算法。由于文字通常嵌入在复杂的背景中，因此如何选取特征，使得笔画和背景有很大的区分度是文字检测的一个难点问题，基于文字笔画存在四个方向：水平、垂直、主对角线和副对角线，并且在不同方向具有不同典型特征的特性，本文首先对笔画的四个方向分别提取特征，形成表述文字笔画的24维特征向量，然后送到训练好的支持向量机分类模型中进行分类，对得到的区域，应用一组规则进行形状修整，获得文字区域的粗检测结果。对取得的粗检测结果，我们再提取6维的特征向量，训练SVM模型，进行细分类，得到准确的检测结果。本文两次应用机器学习的分类算法，虽然标注及训练的工作量略有增加，但是速度和效率都有相应的提高。　　在文字分割的研究中，存在基于差异性和基于相似性两类主流的研究方法，前一类方法基于前景和背景的颜色或亮度差异，结合使用滤波算子和阈值方法。这类方法简单、速度快，但是当背景与文字相似的时候，分割效果不理想。基于相似性的方法聚类颜色或亮度相似的像素，形成几个颜色模型，然后根据一些启发式规则，判断哪个模型为文字笔画。当文字像素颜色相似时，这类算法取得很好的分割效果，反之，分割效果变的很差。本文提出一种混合的框架，融合两类算法的优点，使得文字分割算法性能获得进一步的提升。本文首先提出用于检测文字边缘的算子，它对文字笔画与背景间的过渡像素响应强烈，应用算子和改进的Niblack阈值算法，获得文字笔画的外轮廓信息，这是基于文字与背景的差异性获得的文字笔画边缘信息。根据笔画的上下边缘成对出现这一特性，定位文字笔画并获得它的颜色信息，然后对颜色聚类，获得文字笔画信息，这是基于笔画颜色相似性获得的文字笔画信息。最后对获得的两种文字笔画信息进行融合，得到更加准确的分割结果。本文与单独采用其中一种方法的论文进行了对比实验，证明了该方法的有效性。　　综合上述文字检测和文字分割研究成果，第四章又加入一些视频时序特征，形成完整的视频文字检测分割系统。

其他文献

μC/OS-Ⅱ操作系统接口在代码自动生成工具Real-Time Workshop Embedded Coder中的实现

代码自动生成工具是工业产品V字型开发流程的重要组成部分，它连接数学建模和原型开发两个环节，在加快产品开发进度的同时，大大降低手工编码所引入的错误，让开发人员有更多时间和

学位

微处理机操作系统代码生成通信机制

星载计算机系统软件研究与实现

星载计算机运行时易受空间辐射效应的影响，系统硬件平台需要提供一定的可靠性保障，而系统软件是星载计算机的核心，它配合系统硬件工作并且提供更为灵活有效的可靠性设计。另外，日

学位

星载计算机空间辐射系统软件软件设计

基于P2P-SIP的VoIP实验系统设计与实现

SIP(会话发起协议)是由IETF提出的用于发起、修改和终止多媒体会话的应用层控制协议，已经广泛应用于VoIP系统中。基于SIP协议的VoIP系统由于其客户端/服务器的服务架构，在用户

学位

对等网络网络服务语言通信通信协议会话发起协议

WebFuse：一种RIA代码自动生成框架

随着以Ajax为重要特征的Web2.0技术体系的迅速发展，许多网站从传统的Web应用向富互联网应用(RIA)转型，并从中获得了丰厚的收益。这又反过来促进了Web2.0的发展，形成了Web开发的

学位

计算机网络网络服务网页设计程序语言

SMP集群上细粒度时间同步并行模拟程序的优化

模拟是计算机体系结构研究的重要手段，也是很多其它科学与工程学科日益采用的研究方法。模拟并行化则是主要的加速方法。计算机系统的并行模拟，通常具有细粒度任务并行的特性，以

学位

离散事件模拟计算机系统模拟细粒度并行时间同步

NAT下基于P2P-SIP的转发服务系统的设计与研究

P2P对等通信业务，如即时通信、文件共享和多媒体分发等应用广泛流行，然而，因IP地址短缺、网络接入设备增多、互联互通需求增强等原因，基于NAT技术的多级私网接入Internet结构越来

学位

转发服务器对等通信业务即时通信文件共享网络接入设备数据传输

曙光5000A互连网络交换芯片的ASIC物理设计与优化

随着半导体工艺进入深亚微米时代，芯片的复杂度越来越高，给IC设计者带来极大的挑战。本文介绍了曙光5000A高效能计算机互连网络的交换芯片——D5K-Switch ASIC芯片的物理设计和

学位

集成电路ASIC芯片芯片设计CMOS工艺

基于VR的视景生成与基于小波变换的图像匹配算法研究

图像匹配是指把一个图像区域从另一个可能在不同时间，不同视点位置或者由不同传感器所获得的图像区域中确定出来或找到它们之间对应关系的一种重要的图像分析与处理技术。　　

学位

虚拟现实图像匹配边缘检测算子小波变换

云计算下可信支撑机制关键技术研究与实现

当今时代,随着网络化和信息化的迅猛发展,云计算模式应用而生,其采用按需付费的方式为云用户提供轻便、可用的服务,并使云用户从繁重的资源维护中解脱出来。但是随着云计算应

学位

可信计算云计算可信根可信连接

关于异步多模式匹配算法的研究

网络安全随着互联网的兴起而产生，并随着互联网的发展而不断发展进步。在早期，人们通过对IP包的头部进行分析，发现网络流中的异常数据包，从而对IP包进行相应的处理。如今，随着网络

学位

多模式匹配网络安全确定性有限自动机GDFA

叠加文字检测与分割算法研究

其他学术论文