视频叠加中文字符识别算法研究

来源 :中国科学院大学 | 被引量 : 0次 | 上传用户:teddy18chen
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
互联网技术日新月异,多媒体设备广泛普及,人们逐渐习惯将生活中的瞬间记录成图像或视频,并通过各种社交网站与他人分享。视频量的急剧增长使寻找一种高速有效的视频检索标注方法成为迫切的任务。视频中的文字通常提供了关于其内容简明扼要的信息,如演讲人姓名、新闻标题、产品品牌、事件地点日期等。这些文字与视频内容息息相关,因此可以作为视频标注检索的可靠依据。视频文字一般分为场景文字和叠加文字。场景文字是指由摄像头捕捉,自然存在于场景中的,如广告牌、路标等;叠加文字是指在视频编辑的时候,人为叠加上去的,如电影字幕、新闻标题等。相比与其它的底层特征,如颜色、亮度、纹理、形状,视频文字是一种高层语义信息。尤其是视频叠加文字是人工添加的信息,能够对视频内容提供简明直接的描述和注释。因此,提取识别视频叠加文字显得非常有意义,而本文所研究的工作主要集中在如何准确识别视频叠加文字。  一般而言,视频文字识别系统主要包含5个步骤:检测、定位、追踪、提取和识别。目前,大多数视频叠加文字识别方法都是基于视频文字的二值化和传统OCR引擎的结合。然而,二值化过程容易引入噪声和文字笔划信息的丢失。另外,传统OCR技术主要专注于高分辨率的扫描打印文档,这些文档具有背景单一、噪声少和笔划信息较完整的特点。因此,传统OCR引擎用于识别叠加文字二值化后的结果可能不够鲁棒。为了解决这个问题,本文采用直接从未二值化的叠加视频文字图像中提取Gabor特征用于训练字符分类器。这种方式提取的Gabor特征相比传统扫描文档提取的特征,对于复杂背景的影响比较鲁棒。另外,本文对基于Gabor特征的叠加文字识别分类器进行了研究,并同几种传统方法进行了比较,验证了本文算法的有效性。本文的贡献与特点体现在以下几个方面:  1.建立了一个叠加文字数据集,该数据集是目前所知的最大叠加文字数据集,覆盖了国标GB2312-80的1级字库的3755个汉字,包括了20多种字体,字符渲染风格更是复杂多样,对于研究叠加文字字符的识别具有很大作用;  2.提出了一种基于Gabor特征和MQDF分类器的视频叠加文字字符图像单字体识别算法,并在20种字体上进行了验证,获得了良好的识别效果;  3.提出了一种多字体的视频叠加文字字符图像识别算法,该算法基于Gabor特征和最近原型分类,快速准确地识别多字体的叠加文字字符图像。
其他文献
公共电话交换网(PSTN)是最广泛使用的通信线路,因此在PSTN线路上传输视频具有广阔的应用前景。本文详细讨论了基于PSTN的视频监控系统中采集子系统和显示子系统的设计与实现,并
基于CDMA技术的移动通信系统将支持语音,视频,数据等不同QoS要求的多类业务传输,如何设计有效的呼叫接入控制策略以保证各类业务的服务质量,同时最大限度地利用无线资源,支持尽可
云技术、物联网和基于二者的大数据技术的飞跃性发展正推动着教育领域发生前所未有的变革。大数据时代的教育创新,教育大数据挖掘及学习分析如今成为信息科学研究的最大热点之
本论文主要探讨有关视频数据信息安全的技术.它通过在原始视频数据中嵌入秘密信息—水印(watermark)来证实该视频数据的所有权,以此来抵制对数字视频作品的盗版.本论文取得了
在语义网中,本体是对领域概念化的建模,以便基于本体构建的应用系统可以通过共享领域知识来实现互操作。然而,由于构建本体的目的不同,描述同一领域的本体在覆盖面、粒度、命名和
目前,地理信息系统(GIS)解决方案普遍采用属性数据和空间数据分别存储的模式,其中属性数据存储在关系型数据库系统中,空间数据则以文件方式存储。这种存储模式在分布式GIS应用系
随着嵌入式技术的迅速发展,全世界嵌入式系统带来的工业年产值已猛增到1万亿美元以上:基于优先级的多任务实时系统;支持多任务的通信和同步;支持中断管理;支持动态内存管理和
贝叶斯技术和贝叶斯网络是人工智能中处理不确定性问题的一种主要工具.贝叶斯技术和Agent技术的融合形成一个具有广阔前景的新兴的研究课题.机器人足球是一个典型的多Agent系
我们提出了一个基于活动有向图的支持软件开发过程管理的工作流模型.使用这个模型,我们介绍了一个支持软件开发过程管理的工作流执行系统,并且采用多Agent来实现这个执行系统
随着软件产业的发展,我们面临的遗产软件不仅在数量上日益增多,而且在比例上也逐渐上升,能否很好地利用这笔财富,将在很大程度上影响软件业的生产率.因此,近几年来,遗产软件