论文部分内容阅读
近年来,伴随着国家的不断进步以及科学技术的快速发展,视频的数量时刻以闪电般的速度在增长。视频在教育教学、航天航空、智能交通、生物医学等领域都被广泛应用,视频在人类获取信息的途径中扮演着十分重要的角色。过去基于简单的关键字检索技术已经无法满足人类对于海量视频数据的查询,人们想要在如此庞大的视频数据库中查找自己所需的或者有兴趣的视频信息变得越来越艰难。相对于颜色、边缘等底层信息来说,视频中的文本包含着大量有用的内容并且可以很好地概括视频信息。伴随着支持向量机(SVM,Support Vector Machine)的出现与兴起,许多学者提出了采用SVM的方法实现对视频文本的检测。针对这些方法特征单一、特征维数过大、时间耗费过长、检测效果不理想,即无法兼顾时间复杂度与检测效果等不足,本论文对其进行了深入研究和改进并且提出了两种新的利用SVM对视频文本进行检测的方法以提高文本的检测效果。最终通过对结果的分析与对比证实了本论文所提出的改进算法在实现效果上确实是行之有效的。本文首先综述并分析了有关视频文本检索技术的相关背景及研究意义,分析且总结了国内外学者对于视频中的文本进行检测的研究现状。在研究了相关理论知识以及特征提取方法的基础上提出了两种结合SVM对视频文本进行检测的算法。具体研究工作如下:(1)提出了通过提取文本的颜色、边缘和纹理的综合特征并且结合SVM对视频文本进行检测的方法。首先从视频中截取一定数量的正负样本,即包含非文本区和文本区域;对所选样本进行基于颜色、纹理和边缘特征的提取;然后根据提取到的正负样本的特征数据进行训练并且得到对应的SVM分类模型;最后根据得到的分类模型进行相应的视频文本检测。(2)目前,有很多文献都采用HOG结合SVM的方法进行行人的检测,并且取得了较好的效果。基于此,文本尝试提取文本的HOG特征,并结合颜色、边缘特征,将其特征进行训练后根据训练模型进行检测,最终得到视频中的文本区域。同样,经过样本选取、提取特征、训练模型和文本检测等步骤。最终,通过分析实验结果以及对照算法评价标准证实了该算法可以有效提高文本检测的准确率并且降低误检率。(3)基于现有文献大多对视频文本的检测都是基于单帧的,当其动态背景较复杂,边缘性较强的情况下,其误检率较高。因此,本文通过分析基于单帧检测出现的不足,在该算法基础上将其改进为基于相邻三帧的检测,以此来降低文本的误检率从而来提高文本的检测效果。实验结果表明该方法有效降低了文本的误检率而且相应地提高了视频中文本的检测效果。