论文部分内容阅读
近年来,随着移动互联网的飞速发展,人人都成为了内容制作者,每天互联网上都会新产生非常多的视频内容。高速检索视频成为一个非常大的需求,而视频文字作为一种高层的语义信息,对帮助理解视频内容或者检索视频有重大意义。所以如果能准确提取文字并识别,将会给快速检索视频提供非常大的帮助,因而具有重大的应用价值和经济效应。而视频字幕文字的准确检测是后续文字识别的前提,所以说文字检测是非常重要的一环,正是因为此原因,本文主要专注于研究视频字幕文字的检测和定位。主要工作包括下面几个方面: (1)使用显著性检测方法来辅助拉普拉斯方法,对于传统的拉普拉斯方法,首先是获得MGD(Maximal Gradient Difference)图,然后再用K-means聚类来获得候选文本区域。主要有两个缺点,一是当文字周围有很多干扰时,导致算法没法对文字进行定位。二是传统的方法是在边缘图上做投影来对文字进行精确定位,但是在文字和背景的对比度低、文字有变形、文字部分光照不均匀等情况下,边缘往往检测不到,从而没法根据边缘来给文字定位。提出的改进有两个方面,针对检测结果有很多干扰的情况,利用显著性检测来抑制非文本区域信息,从而聚类的结果中包含更少的非文本区域。针对基于边缘进行文字定位存在的问题,提出在MGD上进行定位。另外最后还提出将纵向投影的方法用来排除非文本区域,提高了检测的效果。 (2)使用显著性检测方法来辅助角点检测方法,针对文字和背景对比度比较低的情况,使用传统的角点检测方法,经常会有一些文字被漏检,因此效果不是很理想。提出使用了Harris的角点响应函数值来构建响应特征图,这对低对比度文字的检测会有帮助。但是该方法有一个不足的地方,就是如果文字周围有许多非文本干扰,那么很难直接提取文字区域。于是提出了显著性检测方法和角点响应函数相结合的新方法,抑制了非文本区域信息,最终能很好地检测到对比度低的文字。