论文部分内容阅读
随着计算机技术和互联网技术的普及和发展,多媒体技术及其应用也迅速发展。数字图书馆、网上购物、远程教育等已经进入人们的生活,视频、音频和图像等多媒体信息将成为网上不可缺少的重要资源,而且每天都在产生大量的视音频信息。如何有效的管理和利用如此庞大的多媒体数据资源,以及从这些庞大的多媒体数据中快速找到用户需要的数据和资源,是当今多媒体检索技术中重点解决的问题。
广播视频是一种传播给用户的经过加工、编辑的视频形式,是人们生活、休闲、娱乐、信息和社会生活的重要组成部分。本文针对广播视频的结构分析和语义理解进行了深入的研究,涉及到了许多视频处理和内容检索的基本问题,其中包括广播视频的镜头边界检测、节目分割、节目摘要、节目分类和节目检索等。本文的主要工作和贡献如下:
·从广播视频本身的结构和制作特点出发,分析了当前视频分割、分类和检索中存在的问题,提出了一种基于多模态融合的节目分割和语义表达的基本框架,并引入了三种中层特征来连接低层特征和高层的语义之间的“鸿沟”,分别为P0IM(Program Oriented Informative iMages)图像、音频场景变化(AudioScene Change,ASC)和文本内容变化(Textual Content Change,TCC)。采用针对多模态特征的前期融合与后期融合来进行计算并判断节目的边界,与传统的方法相比提高了准确率并具有更好的鲁棒性和扩展性。在节目分割的基础上,用视觉和文本特征对节目进行多模态的表达,从而使用户更方便的对视频节目进行浏览和搜索。
·本文将多值图像的梯度运算扩展到广播视频处理中,提出了一种基于广义梯度的视频中的logo理算法框架,能够分别对静态和动态的logo行检测、跟踪和去除。与现有的基于像素差和边缘匹配的logo测算法相比,能够用更少的帧数得到满意的效果;与传统的logo除算法相比,该法能够较好地保持logo近的边缘和几何信息的连续性和一致性。
·利用P0IM图像检索和视频关键帧序列匹配相结合的方式,提出了一种由粗到精的快速视频节目检索算法。对视频节目提取了颜色编码特征和排序测度特征,采用动态时间规整(Dynamic Time Warping,DTW)的方法来实现节目检索,与传统的基于关键帧序列和基于视频片段的视频检索算法相比,该方法能够有效的克服颜色扭曲、码流变化和分辨率变化等造成的影响,从而提高了视频节目检索的鲁棒性。
·广告视频作为广播视频中应用最为广泛的形式之一,本文对其进行了针对性的研究,设计实现了一个包括广告的分割、分类和检索系统。深入分析了广播视频中的广告片段之间的边界的特点,提出了一种基于广告的语义概念FMPI(FrameMarked with Production Information)图像。同时结合视觉场景的变化和音频场景的变化,以及一些广告领域的黑帧、静音等特征,用监督的学习方法来检测广告的边界。对于按产品和服务的广告视频分类,采用潜在语义分析方法来自动挖掘与产品和服务有关的视觉和文本概念,同时利用搜索引擎和百科全书来扩展广告中文本信息来增强文本概念的学习,利用概念的分布来进行分类。基于FMPI图像和关键帧序列匹配的广告检索方式,满足了广告的监控以及搜索的需要。