论文部分内容阅读
视频图像中的文本,特别是附加的文本包含许多重要的信息,原因有三:(1)与当前的视频内容紧密相关;(2)文本具有明显的视觉特征;(3)OCR文字识别技术的发展远远超过了声音识别技术和图像理解技术。因此几乎所有的视频图像检索研究都是从视频文本的识别开始。现有的OCR识别系统还不能直接识别复杂背景下的文本,因而从视频中提取和跟踪文本区域,具有重要的实际意义。
本文的主要研究成果如下:
(1)提出了一种基于支持向量机的模糊推理噪声检测方法。该建模方法应用支持向量机的学习机制从训练样本中提取支持向量,由支持向量确定模糊基函数,产生相应的模糊规则,建立起模糊推理模型。并依据此设计了一套噪声检测系统。该系统由基于支持向量机的模糊推理子系统和决策子系统组成。其中,推理子系统分别在纵向和横向上检测噪声信息;决策子系统综合纵向和横向的信息,做出决策。实验结果证明,该方法可有效地检测并去除噪声,同时保留了图像的细节信息,为后续的文本检测、定位和提取提供了良好的基础。
(2)提出了一种基于小波变换和支持向量机(SVM)在数字图像中定位文本的方法。首先对图像进行小波变换;其次在低频概貌和高频能量空间应用SVM提取文本的纹理特征,由SVM来决定当前的像素是文本类还是非文本类;最后因为SVM的分类结果可能存在噪声或虚假文本,用形态学去噪和计算纹理能量的方法对SVM的分类结果进行后处理。小波变换和SVM的结合,不仅降低了输入空间样本的数量,而且利用了SVM适合于高维空间工作的特点,提高了文本提取的效率。实验结果表明,提出的方法可以快速有效地定位数字图像中的文本区域。
(3)提出了一种判断文本区域字符颜色极性的方法。文本区域的字符存在着不同的颜色极性,为了能够正确地把文本区域的灰度图像转换成OCR识别软件可以识别的二值图像,本文提出,首先计算文本区域的灰度一梯度共生矩阵,并采用二维最大熵阈值分割递推算法快速地找到分割的灰度和梯度最佳阈值;然后在此基础上提取特征向量,送入神经网络进行分类;最后根据颜色极性判断的结果,分割出字符。实验结果表明,这种方法在复杂度不同的背景下,正确地识别出了不同类别的字符颜色极性。在准确的识别出文本颜色极性的基础之上,用高帽(Top-Hat)和低帽(Bottom-Hat)运算寻找种子点,进行区域增长,将文本图像转换成二值图像。最后利用字符的笔画特征消除二值图像中的噪声。
(4)提出了一种从时域到空域的自动视频分割方法。在时间域的阶段,通过对相邻两帧的变换部分的检测,找到运动目标的初步的定位。在空间域阶段,采用预测分水岭算法对运动目标进行精确定位。两种方法互相补充,互相增强。实验结果表明,提出的方法不仅分割效果好,而且计算时间少。
(5)提出了一种快速而实用的印刷体数字识别算法,它的基本原理是利用印刷体数字的结构特征,应用神经网络的方法对数字进行识别的。由于采样手段多种多样,环境的变化等因素的影响,采集到的图像效果通常不是很理想,因此本文提出了采用Hopfield神经网络对每个数字进行矫正,再送入BP网络进行识别的方法。并把该算法用于DSP实现,实验结果表明,该方法抗干扰性强,能对身份证上的编号数字进行快速、准确的识别。