论文部分内容阅读
互联网技术日新月异,多媒体设备广泛普及,人们逐渐习惯将生活中的瞬间记录成图像或视频,并通过各种社交网站与他人分享。视频量的急剧增长使寻找一种高速有效的视频检索标注方法成为迫切的任务。视频中的文字通常提供了关于其内容简明扼要的信息,如演讲人姓名、新闻标题、产品品牌、事件地点日期等。这些文字与视频内容息息相关,因此可以作为视频标注检索的可靠依据。视频文字一般分为场景文字和叠加文字。场景文字是指由摄像头捕捉,自然存在于场景中的,如广告牌、路标等;叠加文字是指在视频编辑的时候,人为叠加上去的,如电影字幕、新闻标题等。相比与其它的底层特征,如颜色、亮度、纹理、形状,视频文字是一种高层语义信息。尤其是视频叠加文字是人工添加的信息,能够对视频内容提供简明直接的描述和注释。因此,提取识别视频叠加文字显得非常有意义,而本文所研究的工作主要集中在如何准确识别视频叠加文字。 一般而言,视频文字识别系统主要包含5个步骤:检测、定位、追踪、提取和识别。目前,大多数视频叠加文字识别方法都是基于视频文字的二值化和传统OCR引擎的结合。然而,二值化过程容易引入噪声和文字笔划信息的丢失。另外,传统OCR技术主要专注于高分辨率的扫描打印文档,这些文档具有背景单一、噪声少和笔划信息较完整的特点。因此,传统OCR引擎用于识别叠加文字二值化后的结果可能不够鲁棒。为了解决这个问题,本文采用直接从未二值化的叠加视频文字图像中提取Gabor特征用于训练字符分类器。这种方式提取的Gabor特征相比传统扫描文档提取的特征,对于复杂背景的影响比较鲁棒。另外,本文对基于Gabor特征的叠加文字识别分类器进行了研究,并同几种传统方法进行了比较,验证了本文算法的有效性。本文的贡献与特点体现在以下几个方面: 1.建立了一个叠加文字数据集,该数据集是目前所知的最大叠加文字数据集,覆盖了国标GB2312-80的1级字库的3755个汉字,包括了20多种字体,字符渲染风格更是复杂多样,对于研究叠加文字字符的识别具有很大作用; 2.提出了一种基于Gabor特征和MQDF分类器的视频叠加文字字符图像单字体识别算法,并在20种字体上进行了验证,获得了良好的识别效果; 3.提出了一种多字体的视频叠加文字字符图像识别算法,该算法基于Gabor特征和最近原型分类,快速准确地识别多字体的叠加文字字符图像。