论文部分内容阅读
视频文字直接承载了高层语义信息,因此,如果能够有效地提取视频中的文字信息,对高速增长的视频内容的高效检索、理解和复用将具有重要的作用。传统的OCR技术不能完全解决视频中的文字信息提取问题,特别是复杂背景中的文字。因此,需要从理论和技术上提供有效的解决方案。
视频文字信息抽取的技术难点主要来源于5个方面:(1)复杂背景中的文字定位以及退化文字的定位问题;(2)种类繁多的字符图像二值化问题;(3)复杂背景中的字符切分问题;(4)粘连字符的切分问题;(5)退化字符的识别问题。
本文围绕着视频文字信息抽取这一领域,针对其中的若干问题展开了研究工作。本文的主要贡献包括:
1.为解决各种类型的字符图像二值化问题,提出了一种多二值图像融合的字符图像二值化算法。算法首先从不同的角度提取图像的信息,得到不同的二值图像,然后把这些二值图像融合,得到最终的二值图像。对比其他字符图像二值化算法,该多二值图像融合的算法能大大地提高字符识别系统的性能。
2.为解决字符的切分问题,分析了字符图像的特点及字符切分的难点,提出了一种基于启发和识别的字符切分算法。算法能同时对粘连字符及复杂背景中的字符进行较准确的切分,同时能去除切分单元中的“噪声”成分,克服了启发式字符切分算法的某些缺陷。
3.为解决退化字符的识别问题,提出了一种基于融合图像的字符识别及基于语言模型的后处理算法。对比字符的二值图像和灰度图像,融合图像既能保留有用的字符笔画灰度信息,同时能去除无用的背景信息,提高了字符识别系统的性能。该字符识别算法同时能较准确地给出识别结果的置信度,结合基于词的二元及三元统计语言模型,利用连续多个字符切分单元的上下文信息,进一步提高了字符识别率。
4.提出了一种集成型的字符切分与识别算法。串行的字符切分与识别方法没有形成有效的反馈,字符切分过程无法利用识别的信息,导致一些复杂情况的字符图像不能得到准确的切分与识别。为了克服串行方法的缺点,该集成型算法基于图像分析或字符识别对字符二值图像中的宽连通域进行切分,基于字符识别组合连通域得到候选识别结果,基于语言模型选出字符识别结果。对比串行的方法,该集成型算法能更准确地识别粘连字符及复杂背景中的字符。
5.提出了一种图像中的文字定位以及视频中的文字提取算法。图像中的文字定位算法首先基于字符笔画的双边缘模型得到候选文字区域,然后对候选文字区域进行分解得到精确定位的文本块,最后基于启发和字符识别对文本块进行验证。视频中的文字提取算法每隔若干视频帧取一帧进行基于图像的文字定位得到文字对象,然后在视频帧序列中对文字对象进行向前和向后的跟踪,最后对文字对象进行识别得到文字提取结果。
本文针对视频文字提取的技术难点,特别是退化字符及复杂背景中字符的切分与识别问题,提出了一些解决方案,取得了一些研究进展。