视频文字信息抽取技术研究

来源 :中国科学院自动化研究所 | 被引量 : 0次 | 上传用户:mengxianshan
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
视频文字直接承载了高层语义信息,因此,如果能够有效地提取视频中的文字信息,对高速增长的视频内容的高效检索、理解和复用将具有重要的作用。传统的OCR技术不能完全解决视频中的文字信息提取问题,特别是复杂背景中的文字。因此,需要从理论和技术上提供有效的解决方案。   视频文字信息抽取的技术难点主要来源于5个方面:(1)复杂背景中的文字定位以及退化文字的定位问题;(2)种类繁多的字符图像二值化问题;(3)复杂背景中的字符切分问题;(4)粘连字符的切分问题;(5)退化字符的识别问题。   本文围绕着视频文字信息抽取这一领域,针对其中的若干问题展开了研究工作。本文的主要贡献包括:   1.为解决各种类型的字符图像二值化问题,提出了一种多二值图像融合的字符图像二值化算法。算法首先从不同的角度提取图像的信息,得到不同的二值图像,然后把这些二值图像融合,得到最终的二值图像。对比其他字符图像二值化算法,该多二值图像融合的算法能大大地提高字符识别系统的性能。   2.为解决字符的切分问题,分析了字符图像的特点及字符切分的难点,提出了一种基于启发和识别的字符切分算法。算法能同时对粘连字符及复杂背景中的字符进行较准确的切分,同时能去除切分单元中的“噪声”成分,克服了启发式字符切分算法的某些缺陷。   3.为解决退化字符的识别问题,提出了一种基于融合图像的字符识别及基于语言模型的后处理算法。对比字符的二值图像和灰度图像,融合图像既能保留有用的字符笔画灰度信息,同时能去除无用的背景信息,提高了字符识别系统的性能。该字符识别算法同时能较准确地给出识别结果的置信度,结合基于词的二元及三元统计语言模型,利用连续多个字符切分单元的上下文信息,进一步提高了字符识别率。   4.提出了一种集成型的字符切分与识别算法。串行的字符切分与识别方法没有形成有效的反馈,字符切分过程无法利用识别的信息,导致一些复杂情况的字符图像不能得到准确的切分与识别。为了克服串行方法的缺点,该集成型算法基于图像分析或字符识别对字符二值图像中的宽连通域进行切分,基于字符识别组合连通域得到候选识别结果,基于语言模型选出字符识别结果。对比串行的方法,该集成型算法能更准确地识别粘连字符及复杂背景中的字符。   5.提出了一种图像中的文字定位以及视频中的文字提取算法。图像中的文字定位算法首先基于字符笔画的双边缘模型得到候选文字区域,然后对候选文字区域进行分解得到精确定位的文本块,最后基于启发和字符识别对文本块进行验证。视频中的文字提取算法每隔若干视频帧取一帧进行基于图像的文字定位得到文字对象,然后在视频帧序列中对文字对象进行向前和向后的跟踪,最后对文字对象进行识别得到文字提取结果。   本文针对视频文字提取的技术难点,特别是退化字符及复杂背景中字符的切分与识别问题,提出了一些解决方案,取得了一些研究进展。
其他文献
路灯节能管理系统是城市建设不可缺少的公共设施,在城市的交通安全、社会治安中发挥着重要的作用。传统的路灯节能管理系统存在着信息化程度低、节能效果不理想等问题,已经无法
口语测试自动评估技术是计算机辅助语言学习领域的重要研究内容。本文针对该领域中朗读与问答题型的自动评估技术做了深入的研究,其中包括朗读和问答题型的自动评分和发音错误
学位
学位
本文针对反导导弹末制导导引机理以及制导回路雷达信号滤波问题进行了研究,主要包括如下几个方面:  首先,介绍了三维坐标系和弹目相对运动建模。研究了利用改进的极坐标系对弹
计算机断层成像(CT)作为一种无损的成像方式,在临床、预临床以及工业界得到了广泛应用。随着硬件的发展,CT扫描的速度越来越快,单次扫描产生的数据量也越来越大,这些新的发展对CT
学位
随着控制技术、计算机和人工智能的快速发展,以及人们需求的日益复杂,多机器人系统以其分布式、柔性、鲁棒性等优势发挥着越来越重要的作用。要使多个机器人有效地运行,就必须对
学位
近年来,无线传感器网络(Wireless Sensor Networks,WSNs)以其低功耗、低成本和自组织等特点广泛运用于军事、环境、医疗、家庭办公等各个方面,成为现代信息技术应用领域的研究热
学位
随着科技的发展,我们在工作和生活中将会越来越多的和机器人联系在一起,使得人类与机器人之间的关系越来越紧密。这些都引发了一个重要的问题,就是如何使这些复杂精密的机器能够
在现代战争的防空武器系统中,防空高炮有着不可替代的作用。随着科学技术的发展,高炮武器系统的结构和技术越来越复杂,这就要求研制新的故障检测仪。而作为故障检测仪的重要