论文部分内容阅读
提出一种新的用于识别视频中字幕文字的方法。鉴于视频中文字的大小、颜色、渲染风格和分辨率的不同,以及视频中各种复杂背景的影响,识别视频中的叠加文字是一个尚未解决的问题。目前,大多数视频叠加文字识别方法都基于视频文字的二值化和传统OCR引擎的结合。然而,二值化过程容易引入噪声和文字笔划信息的丢失。另外,传统OCR技术主要专注于高分辨率的扫描打印文档,这些文档具有背景单一、噪声少和笔划信息较完整的特点。因此,传统OCR引擎用于识别叠加文字二值化后的结果可能不够鲁棒。为解决这个问题,直接从未二值化的叠加视频