论文部分内容阅读
图像和视频中的文字包含丰富的语义信息,在很多应用中占有重要的位置,如自动标注,基于内容的图片或视频检索与分析等。由于图像和视频中的文字通常叠加在复杂的图像背景之上,现有的OCR技术难以识别出文字,因而如何从图像的复杂背景中提取出文字成为一个有必要研究的问题。从图片或视频中提取文字包括文字检测、文字分割和文字识别三个部分,文字检测是在图像或视频中找到文字行的位置,并且准确确定出其外轮廓;文字分割是在找到的文字行区域内,将文字前景与背景分离开,前景像素完全是文字像素;文字识别是将检测到的文字行中的内容读取出来。目前,文字识别研究的比较充分,已经有成熟的商业软件,所以本文的研究重点是文字检测和文字分割。在这两部分提出了具有创新性的算法,在速度和性能上都有一定的提升。最后,综合两部分研究并加入视频时序的优化算法,完成了基于视频的文字检测与分割系统。
对于视频或图像中的叠加文字,本文提出一种基于笔画特征,由粗到细的文字检测算法。由于文字通常嵌入在复杂的背景中,因此如何选取特征,使得笔画和背景有很大的区分度是文字检测的一个难点问题,基于文字笔画存在四个方向:水平、垂直、主对角线和副对角线,并且在不同方向具有不同典型特征的特性,本文首先对笔画的四个方向分别提取特征,形成表述文字笔画的24维特征向量,然后送到训练好的支持向量机分类模型中进行分类,对得到的区域,应用一组规则进行形状修整,获得文字区域的粗检测结果。对取得的粗检测结果,我们再提取6维的特征向量,训练SVM模型,进行细分类,得到准确的检测结果。本文两次应用机器学习的分类算法,虽然标注及训练的工作量略有增加,但是速度和效率都有相应的提高。
在文字分割的研究中,存在基于差异性和基于相似性两类主流的研究方法,前一类方法基于前景和背景的颜色或亮度差异,结合使用滤波算子和阈值方法。这类方法简单、速度快,但是当背景与文字相似的时候,分割效果不理想。基于相似性的方法聚类颜色或亮度相似的像素,形成几个颜色模型,然后根据一些启发式规则,判断哪个模型为文字笔画。当文字像素颜色相似时,这类算法取得很好的分割效果,反之,分割效果变的很差。本文提出一种混合的框架,融合两类算法的优点,使得文字分割算法性能获得进一步的提升。本文首先提出用于检测文字边缘的算子,它对文字笔画与背景间的过渡像素响应强烈,应用算子和改进的Niblack阈值算法,获得文字笔画的外轮廓信息,这是基于文字与背景的差异性获得的文字笔画边缘信息。根据笔画的上下边缘成对出现这一特性,定位文字笔画并获得它的颜色信息,然后对颜色聚类,获得文字笔画信息,这是基于笔画颜色相似性获得的文字笔画信息。最后对获得的两种文字笔画信息进行融合,得到更加准确的分割结果。本文与单独采用其中一种方法的论文进行了对比实验,证明了该方法的有效性。
综合上述文字检测和文字分割研究成果,第四章又加入一些视频时序特征,形成完整的视频文字检测分割系统。