论文部分内容阅读
随着视频信息的大规模引入,基于关键字的传统检索技术已不能适应人们的需要,近年来,基于内容的检索成为研究的热点。本课题分析了现有的视频检索理论框架,并对传统的文字识别算法加以改进,实现了视频帧中复杂背景下的实时文字检测与数字识别。对视频中文字的丰富的语义信息加以分析,在镜头分割、场景聚类的基础上形成镜头描述的特征空间,建立了以文字信息为主要特征的视频检索系统。 本课题以篮球比赛的视频片断为例,主要进行了以下几个方面的研究:1)针对视频中的“闪动”和“急跳”现象,提出了“二级镜头分割算法”,解决了镜头边缘的误识别问题。2)对所检测出的视频片断或整个视频流进行播放。3)基本解决了复杂背景下文字检测与定位问题,提高了数字的识别速度与正确率。4)文字区域的检测分为固定区域和非固定区域的文字检测,本文采用“双阈值窗口检测法”算法讨论了对固定区域的探测。5)使用改进了的模板匹配方法实现对印刷体文字进行识别,在传统的模板匹配基础上,提出了“二值化掩码模板”和“三灰度加权匹配”的算法。 本系统以Microsoft Window 2000 professional为操作平台,采用Microsoft Visual Studio C++6.0为工具开发出"NBA篮球比赛视频检索系统”(简称NBVRS)。该系统采用模块化设计,层次分明,界面友好,识别正确率高,且基本满足了用户 西安理工大学硕士学位论文实时性检索的要求。同时,该软件还具有视频的括放功能。最后对系统所采用的算法进行了实验验证,并指出了后续研究的方向。 本课题在原有的视频检索框架上对视频片段的语义内容加深了理解,基本达到依靠比分来进行播放的目的,虽然与实用阶段还有距离,但对于其它研究有着借鉴意义,并具有良好的应用前景。